यह पता लगाने के लिए कि गीत में गीत कहां से शुरू होते हैं?

यह पता लगाने का सबसे अच्छा तरीका क्या होगा कि गीत में स्वर कहां से शुरू होते हैं? मुझे सिर्फ vocals के लिए प्रारंभ समय की जरूरत है। चरम परिशुद्धता आवश्यक नहीं है। गति अधिक महत्वपूर्ण है।यह पता लगाने के लिए कि गीत में गीत कहां से शुरू होते हैं?

कागजात या एल्गोरिदम (यदि ऐसा मौजूद है) के लिए कोई संकेत बहुत सराहना की जाती है .. इसके लिए सिफारिशों की भी तलाश है कि किस ढांचे/भाषा के लिए सबसे अच्छा फिट बैठता है।

स्रोत

2012-05-31 Stpn

यह मनुष्य गा रहा है। – Stpn

आप जानते हैं कि मनुष्य बीटबॉक्सिंग, ग्रोलिंग, "सामान्य" गायन, गले गायन और यहां तक कि पशु आवाज अनुकरण सहित उनकी आवाज़ का उपयोग करके चीजों की एक विस्तृत श्रृंखला कर सकते हैं। ये सभी _song_ के दौरान हो सकते हैं, इस प्रकार संभावित रूप से _vocals_ हो या नहीं। बेशक, यह एक दिलचस्प सवाल है, लेकिन कृपया अपने प्रश्न में विशिष्ट रहें, और [यह भी बताएं कि आपके शोध प्रयास अब तक क्या लाए हैं] (http://meta.stackexchange.com/a/128553/179891)। – moooeeeep

अनुसंधान के बारे में वैध टिप्पणी। एक बार जब मैं कहीं जाता हूं तो मैं निश्चित रूप से अपडेट करूँगा .. नीचे दिए गए उत्तरों से फीडबैक प्राप्त करने से पहले, मैं सिर्फ मानव आवाज आवृत्ति के पिच का पता लगाने की सोच रहा था (लगभग 85 हर्ट्ज से शुरू होता है - https://en.wikipedia.org/wiki/Voice_frequency)। लेकिन स्पष्ट रूप से नीचे से दिए गए लिंक उसमें अधिक अंतर्दृष्टि प्रदान कर सकते हैं। वोकल्स तक, मुझे मानव आवाज द्वारा उत्पादित किसी भी प्रकार की आवाज़ में दिलचस्पी है। – Stpn

* बिगाड़ने: जवाब नहीं नीचे है *

जब से मैं इस के समान कुछ करने के लिए योजना बना रहे हैं, मैं इस विषय पर अपने दम पर एक छोटे से अनुसंधान किया है, और वहाँ कुछ सटीक संख्यात्मक तकनीक हैं कि पता चला वह ऐसा करने में सक्षम हो सकता है।

मैं संदर्भों को सूचीबद्ध करूंगा, और आपको पाठक के रूप में यह तय करने देता हूं कि यह जाने का सही तरीका है या नहीं। इसे सभी को मुखर ऑडियो फीचर निष्कर्षण के साथ करना है, और ऑडियो डेटा में वोकल फीचर्स ढूंढना है।

आप यहाँ शुरू कर सकते हैं, लेकिन यह वास्तव में कहीं भी नेतृत्व नहीं करता है, लेकिन क्या में :)

http://en.wikipedia.org/wiki/Voice_activity_detection

आप तो कर रहे हैं, वक्ता मान्यता के बारे में कुछ लेख को देखने के लिए उपयोगी हो सकता है:

यहां, एक प्राइमर है जिसे आपको mel frequency cepstral coefficients (एमएफसीसी) सुविधा निष्कर्षण के बारे में जानने की आवश्यकता है।

http://www.speaker-recognition.org/navAlg.html

फिर, उदाहरण के लिए, इस:

http://www.iccce.co.in/Papers/ICCCECE358.pdf

मुझे लगता है कि उनमें से कोई भी आपकी समस्या का हल करने के लिए सीधे नेतृत्व पता है, लेकिन कम से कम आप समझ सकेंगे राक्षस का आकार जिसके साथ आप काम करेंगे।

संपादित करें: चौखटे

मुझे लगता है कि करने के लिए संबंधित कुछ के लिए ग # का उपयोग करें, और पहली बार में मैं रोल मेरी खुद FFT एल्गोरिथ्म का इस्तेमाल किया है, तो इंटेल गणित पुस्तकालय का उपयोग करता है ILNumerics पुस्तकालय में ले जाया गया, और बाद में सब बदल दिया है कि fftw के साथ।

http://ilnumerics.net/

http://software.intel.com/en-us/articles/intel-mkl/ इंटेल मठ कर्नेल

http://www.fftw.org/ (एचएम, यह एक समय में मुक्त किया गया था) (एक सरल वेब पेज, लेकिन क्रूर प्रदर्शन)

संपादित करें: नया fft इंजन

चूंकि मैं अपने कुछ कोड एंड्रॉइड पर पोर्ट कर रहा था, इसलिए मेरे पास एक ऐसे व्यक्ति के साथ एक शानदार कामकाजी अनुभव था जिसने कुछ असंभव सोचा - एफएफटी लाइब्रेरी जो एफएफटीडब्ल्यू से भी तेज है: FFTS। उनके जादू की मेरी समझ सीमित है, लेकिन वह विभिन्न प्रोसेसर आर्किटेक्चर के लिए कोडेलेट का उपयोग करता है और हर लाइब्रेरी से बेहतर प्रदर्शन करता है।

स्रोत

2012-05-31 20:16:54

सिग्नल पावर की जांच पॉप संगीत के लिए मदद नहीं करेगा। ऐसा इसलिए है क्योंकि समकालीन पॉप संगीत अत्यधिक संपीड़ित है। इसका मतलब है कि गीत को जोर से प्रकट करने के लिए उत्पादन प्रक्रिया के कई चरणों में ऑडियो स्तर कंप्रेसर लागू किए जाते हैं। अधिक जानकारी के लिए "जोर युद्ध" शब्द का संदर्भ लें। उदाहरण के लिए कैटी पेरी द्वारा "आतिशबाजी" गीत देखें।वॉल्यूम स्तर पूरे गीत में लगभग स्थिर है।

स्रोत

2012-05-31 20:24:53 oliver

यह टिप्पणी एक उत्तर नहीं होना चाहिए। –

@ पियर-एलेक्सेंड्रे बूचर्ड और इसी कारण से वहां एक नीचे तीर है :) – AndyPerfect

जब उसके पास कोई प्रतिनिधि नहीं है तो डाउनवोट कैसे करें :) –

यह पता लगाने के लिए कि गीत में गीत कहां से शुरू होते हैं?

उत्तर

संबंधित मुद्दे