* बिगाड़ने: जवाब नहीं नीचे है *
जब से मैं इस के समान कुछ करने के लिए योजना बना रहे हैं, मैं इस विषय पर अपने दम पर एक छोटे से अनुसंधान किया है, और वहाँ कुछ सटीक संख्यात्मक तकनीक हैं कि पता चला वह ऐसा करने में सक्षम हो सकता है।
मैं संदर्भों को सूचीबद्ध करूंगा, और आपको पाठक के रूप में यह तय करने देता हूं कि यह जाने का सही तरीका है या नहीं। इसे सभी को मुखर ऑडियो फीचर निष्कर्षण के साथ करना है, और ऑडियो डेटा में वोकल फीचर्स ढूंढना है।
आप यहाँ शुरू कर सकते हैं, लेकिन यह वास्तव में कहीं भी नेतृत्व नहीं करता है, लेकिन क्या में :)
http://en.wikipedia.org/wiki/Voice_activity_detection
आप तो कर रहे हैं, वक्ता मान्यता के बारे में कुछ लेख को देखने के लिए उपयोगी हो सकता है:
यहां, एक प्राइमर है जिसे आपको mel frequency cepstral coefficients
(एमएफसीसी) सुविधा निष्कर्षण के बारे में जानने की आवश्यकता है।
http://www.speaker-recognition.org/navAlg.html
फिर, उदाहरण के लिए, इस:
http://www.iccce.co.in/Papers/ICCCECE358.pdf
मुझे लगता है कि उनमें से कोई भी आपकी समस्या का हल करने के लिए सीधे नेतृत्व पता है, लेकिन कम से कम आप समझ सकेंगे राक्षस का आकार जिसके साथ आप काम करेंगे।
संपादित करें: चौखटे
मुझे लगता है कि करने के लिए संबंधित कुछ के लिए ग # का उपयोग करें, और पहली बार में मैं रोल मेरी खुद FFT एल्गोरिथ्म का इस्तेमाल किया है, तो इंटेल गणित पुस्तकालय का उपयोग करता है ILNumerics पुस्तकालय में ले जाया गया, और बाद में सब बदल दिया है कि fftw के साथ।
http://ilnumerics.net/
http://software.intel.com/en-us/articles/intel-mkl/ इंटेल मठ कर्नेल
http://www.fftw.org/ (एचएम, यह एक समय में मुक्त किया गया था) (एक सरल वेब पेज, लेकिन क्रूर प्रदर्शन)
संपादित करें: नया fft इंजन
चूंकि मैं अपने कुछ कोड एंड्रॉइड पर पोर्ट कर रहा था, इसलिए मेरे पास एक ऐसे व्यक्ति के साथ एक शानदार कामकाजी अनुभव था जिसने कुछ असंभव सोचा - एफएफटी लाइब्रेरी जो एफएफटीडब्ल्यू से भी तेज है: FFTS। उनके जादू की मेरी समझ सीमित है, लेकिन वह विभिन्न प्रोसेसर आर्किटेक्चर के लिए कोडेलेट का उपयोग करता है और हर लाइब्रेरी से बेहतर प्रदर्शन करता है।
यह मनुष्य गा रहा है। – Stpn
आप जानते हैं कि मनुष्य बीटबॉक्सिंग, ग्रोलिंग, "सामान्य" गायन, गले गायन और यहां तक कि पशु आवाज अनुकरण सहित उनकी आवाज़ का उपयोग करके चीजों की एक विस्तृत श्रृंखला कर सकते हैं। ये सभी _song_ के दौरान हो सकते हैं, इस प्रकार संभावित रूप से _vocals_ हो या नहीं। बेशक, यह एक दिलचस्प सवाल है, लेकिन कृपया अपने प्रश्न में विशिष्ट रहें, और [यह भी बताएं कि आपके शोध प्रयास अब तक क्या लाए हैं] (http://meta.stackexchange.com/a/128553/179891)। – moooeeeep
अनुसंधान के बारे में वैध टिप्पणी। एक बार जब मैं कहीं जाता हूं तो मैं निश्चित रूप से अपडेट करूँगा .. नीचे दिए गए उत्तरों से फीडबैक प्राप्त करने से पहले, मैं सिर्फ मानव आवाज आवृत्ति के पिच का पता लगाने की सोच रहा था (लगभग 85 हर्ट्ज से शुरू होता है - https://en.wikipedia.org/wiki/Voice_frequency)। लेकिन स्पष्ट रूप से नीचे से दिए गए लिंक उसमें अधिक अंतर्दृष्टि प्रदान कर सकते हैं। वोकल्स तक, मुझे मानव आवाज द्वारा उत्पादित किसी भी प्रकार की आवाज़ में दिलचस्पी है। – Stpn