2012-05-31 14 views
13

यह पता लगाने का सबसे अच्छा तरीका क्या होगा कि गीत में स्वर कहां से शुरू होते हैं? मुझे सिर्फ vocals के लिए प्रारंभ समय की जरूरत है। चरम परिशुद्धता आवश्यक नहीं है। गति अधिक महत्वपूर्ण है।यह पता लगाने के लिए कि गीत में गीत कहां से शुरू होते हैं?

कागजात या एल्गोरिदम (यदि ऐसा मौजूद है) के लिए कोई संकेत बहुत सराहना की जाती है .. इसके लिए सिफारिशों की भी तलाश है कि किस ढांचे/भाषा के लिए सबसे अच्छा फिट बैठता है।

+0

यह मनुष्य गा रहा है। – Stpn

+2

आप जानते हैं कि मनुष्य बीटबॉक्सिंग, ग्रोलिंग, "सामान्य" गायन, गले गायन और यहां तक ​​कि पशु आवाज अनुकरण सहित उनकी आवाज़ का उपयोग करके चीजों की एक विस्तृत श्रृंखला कर सकते हैं। ये सभी _song_ के दौरान हो सकते हैं, इस प्रकार संभावित रूप से _vocals_ हो या नहीं। बेशक, यह एक दिलचस्प सवाल है, लेकिन कृपया अपने प्रश्न में विशिष्ट रहें, और [यह भी बताएं कि आपके शोध प्रयास अब तक क्या लाए हैं] (http://meta.stackexchange.com/a/128553/179891)। – moooeeeep

+0

अनुसंधान के बारे में वैध टिप्पणी। एक बार जब मैं कहीं जाता हूं तो मैं निश्चित रूप से अपडेट करूँगा .. नीचे दिए गए उत्तरों से फीडबैक प्राप्त करने से पहले, मैं सिर्फ मानव आवाज आवृत्ति के पिच का पता लगाने की सोच रहा था (लगभग 85 हर्ट्ज से शुरू होता है - https://en.wikipedia.org/wiki/Voice_frequency)। लेकिन स्पष्ट रूप से नीचे से दिए गए लिंक उसमें अधिक अंतर्दृष्टि प्रदान कर सकते हैं। वोकल्स तक, मुझे मानव आवाज द्वारा उत्पादित किसी भी प्रकार की आवाज़ में दिलचस्पी है। – Stpn

उत्तर

7

* बिगाड़ने: जवाब नहीं नीचे है *

जब से मैं इस के समान कुछ करने के लिए योजना बना रहे हैं, मैं इस विषय पर अपने दम पर एक छोटे से अनुसंधान किया है, और वहाँ कुछ सटीक संख्यात्मक तकनीक हैं कि पता चला वह ऐसा करने में सक्षम हो सकता है।

मैं संदर्भों को सूचीबद्ध करूंगा, और आपको पाठक के रूप में यह तय करने देता हूं कि यह जाने का सही तरीका है या नहीं। इसे सभी को मुखर ऑडियो फीचर निष्कर्षण के साथ करना है, और ऑडियो डेटा में वोकल फीचर्स ढूंढना है।

आप यहाँ शुरू कर सकते हैं, लेकिन यह वास्तव में कहीं भी नेतृत्व नहीं करता है, लेकिन क्या में :)

http://en.wikipedia.org/wiki/Voice_activity_detection

आप तो कर रहे हैं, वक्ता मान्यता के बारे में कुछ लेख को देखने के लिए उपयोगी हो सकता है:

यहां, एक प्राइमर है जिसे आपको mel frequency cepstral coefficients (एमएफसीसी) सुविधा निष्कर्षण के बारे में जानने की आवश्यकता है।

http://www.speaker-recognition.org/navAlg.html

फिर, उदाहरण के लिए, इस:

http://www.iccce.co.in/Papers/ICCCECE358.pdf

मुझे लगता है कि उनमें से कोई भी आपकी समस्या का हल करने के लिए सीधे नेतृत्व पता है, लेकिन कम से कम आप समझ सकेंगे राक्षस का आकार जिसके साथ आप काम करेंगे।

संपादित करें: चौखटे

मुझे लगता है कि करने के लिए संबंधित कुछ के लिए ग # का उपयोग करें, और पहली बार में मैं रोल मेरी खुद FFT एल्गोरिथ्म का इस्तेमाल किया है, तो इंटेल गणित पुस्तकालय का उपयोग करता है ILNumerics पुस्तकालय में ले जाया गया, और बाद में सब बदल दिया है कि fftw के साथ।

http://ilnumerics.net/

http://software.intel.com/en-us/articles/intel-mkl/ इंटेल मठ कर्नेल

http://www.fftw.org/ (एचएम, यह एक समय में मुक्त किया गया था) (एक सरल वेब पेज, लेकिन क्रूर प्रदर्शन)

संपादित करें: नया fft इंजन

चूंकि मैं अपने कुछ कोड एंड्रॉइड पर पोर्ट कर रहा था, इसलिए मेरे पास एक ऐसे व्यक्ति के साथ एक शानदार कामकाजी अनुभव था जिसने कुछ असंभव सोचा - एफएफटी लाइब्रेरी जो एफएफटीडब्ल्यू से भी तेज है: FFTS। उनके जादू की मेरी समझ सीमित है, लेकिन वह विभिन्न प्रोसेसर आर्किटेक्चर के लिए कोडेलेट का उपयोग करता है और हर लाइब्रेरी से बेहतर प्रदर्शन करता है।

0

सिग्नल पावर की जांच पॉप संगीत के लिए मदद नहीं करेगा। ऐसा इसलिए है क्योंकि समकालीन पॉप संगीत अत्यधिक संपीड़ित है। इसका मतलब है कि गीत को जोर से प्रकट करने के लिए उत्पादन प्रक्रिया के कई चरणों में ऑडियो स्तर कंप्रेसर लागू किए जाते हैं। अधिक जानकारी के लिए "जोर युद्ध" शब्द का संदर्भ लें। उदाहरण के लिए कैटी पेरी द्वारा "आतिशबाजी" गीत देखें।वॉल्यूम स्तर पूरे गीत में लगभग स्थिर है।

+0

यह टिप्पणी एक उत्तर नहीं होना चाहिए। –

+0

@ पियर-एलेक्सेंड्रे बूचर्ड और इसी कारण से वहां एक नीचे तीर है :) – AndyPerfect

+0

जब उसके पास कोई प्रतिनिधि नहीं है तो डाउनवोट कैसे करें :) –

संबंधित मुद्दे