आवाज तुलना के लिए एल्गोरिदम

डिजिटल प्रारूप में दो रिकॉर्ड की गई आवाज़ें देखते हुए, क्या दोनों की तुलना करने और समानता के गुणांक को वापस करने के लिए एक एल्गोरिदम है?आवाज तुलना के लिए एल्गोरिदम

स्रोत

2010-05-11 ohho

आप _speakers_ अगर निर्धारित करने के लिए कोशिश कर रहे हैं वही या समान हैं, या यदि _speech खुद_ समान या समान है या दोनों? –

क्षमा करें कि मैंने यह स्पष्ट नहीं किया: वक्ताओं से स्वतंत्र पसंद किया जाता है। मैं _speech_ _itself_ की समानता की तलाश में हूं। – ohho

कई अलग अलग एल्गोरिदम रहे हैं - इस कार्य के लिए सामान्य नाम Speaker Identification है - वहाँ से इस विकिपीडिया पृष्ठ और काम के साथ शुरू: http://en.wikipedia.org/wiki/Speaker_recognition

स्रोत

2010-05-11 07:52:53

मुझे यकीन है कि इस soundfiles के लिए काम करेंगे नहीं कर रहा हूँ, लेकिन यह आप एक देता है मुझे उम्मीद है कि आगे बढ़ने का विचार करें। यह एक मूल तरीका है कि किसी अन्य छवि में पैटर्न (छवि) कैसे ढूंढें।

आपको पहले ध्वनिफाइल दोनों की एफएफटी की गणना करना है और फिर एक सहसंबंध करना है। फ़ॉर्म्यूलर में यह (स्यूडोकोड) दिखाई देगा:

fftSoundFile1 = fft(soundFile1); 
fftConjSoundFile2 = conj(fft(soundFile2)); 
result_corr = real(ifft(soundFile1.*soundFile2));

कहाँ fft = तेजी से फूरियर, को बदलने IFFT = उलटा, संयोजक = संयुग्म जटिल। एफएफटी ध्वनिफाइल के नमूना मानों पर किया जाता है। परिणाम_corr वेक्टर में चोटियों तो आपको उच्च सहसंबंध की स्थिति दे देंगे। ध्यान दें कि इस मामले में दोनों ध्वनिफाइलों को एक ही आकार का होना चाहिए-अन्यथा आपको छोटे (ध्वनिफाइल लम्बाई) वेक्टर की फ़ाइल में छोटा रखना होगा।

सादर

संपादित करें:। * का अर्थ है (matlab शैली में) एक घटक बुद्धिमान mult, आप एक वेक्टर mult नहीं करना चाहिए! अगला संपादित करें: ध्यान दें कि आपको जटिल संख्याओं के साथ परिचालन करना है - लेकिन वहां कई जटिल कक्षाएं हैं इसलिए मुझे लगता है कि आपको इसके बारे में परेशान करने की आवश्यकता नहीं है।

स्रोत

2010-05-11 08:03:16 InsertNickHere

यह एक कामकाजी समाधान होने के करीब भी नहीं है। भाषण का स्पेक्ट्रम समय अलग-अलग और शोर है। आप भाषण के बहुत छोटे से हिस्से के लिए वास्तव में ऐसा कुछ कर सकते हैं जहां स्पीकर कह रहा है, उदा। वही स्वर, और फिर भी शायद यह बहुत अच्छी तरह से काम नहीं करेगा, अगर बिल्कुल भी। –

क्षमा करें, मैं एक "भाषण विशेषज्ञ" नहीं हूं, लेकिन मैंने एक सरल "थ्रेस ध्वनिफाइल कैसे हैं" के लिए सोचा, यह तथ्य के कारण, यह पहली बार ठीक होगा, यह छवियों के साथ काम करता है। – InsertNickHere

आपकी स्पष्टीकरण को देखते हुए मुझे लगता है कि आप जो खोज रहे हैं वह speech recognition algorithms के अंतर्गत आता है।

भले ही आप केवल समानता के उपाय की तलाश में हैं और भाषण को पाठ में बदलने की कोशिश नहीं कर रहे हैं, फिर भी अवधारणाएं समान हैं और अगर मुझे एल्गोरिदम का एक बड़ा हिस्सा काफी उपयोगी होगा तो मुझे आश्चर्य नहीं होगा।

हालांकि, आप को समानता के इस गुणांक को अधिक औपचारिक रूप से परिभाषित करना होगा और कहीं भी प्राप्त करना होगा।

संपादित करें: मुझे विश्वास है कि भाषण मान्यता एल्गोरिदम उपयोगी होंगे क्योंकि वे कुछ ज्ञात रूपों की ध्वनि और तुलना के अमूर्त हैं। संकल्पनात्मक रूप से यह दो रिकॉर्डिंग लेने, उन्हें सारणित करने और उनकी तुलना करने से अलग नहीं हो सकता है।

HMM

"पर विकिपीडिया लेख वाक् पहचान में से, छिपा मार्कोव मॉडल उत्पादन एक दृश्य n आयामी वास्तविक मूल्य वैक्टर की (एन एक छोटे पूर्णांक किया जा रहा है के साथ होता है, जैसे 10), इन हर 10 मिलीसेकेंड में से एक outputting। वैक्टर , Cepstral गुणांकों को मिलाकर होगा जो ले जा रहा एक फूरियर भाषण के कुछ ही समय के विंडो के बदलने और स्पेक्ट्रमdecorrelating द्वारा प्राप्त कर रहे हैंकोसाइन ट्रांसफॉर्म का उपयोग करते हुए, पहले (सबसे महत्वपूर्ण) गुणांक लेते हैं।"

तो तुम गुणांक कि रिकॉर्डिंग का प्रतिनिधित्व के साथ खत्म होगा यदि आप दोनों रिकॉर्डिंग पर इस तरह के एक एल्गोरिथ्म चलाने के लिए और यह अब तक का आकलन करें और दो के बीच समानता स्थापित करने के लिए आसान हो सकता है।

लेकिन अब फिर से आप 'समानता गुणांक' को परिभाषित करने और कुत्तों और घोड़ों को शुरू करने के सवाल पर आते हैं, वास्तव में मदद नहीं करते थे।

(वैसे यह थोड़ा सा करता है, लेकिन एल्गोरिदम का मूल्यांकन करने और एक दूसरे को चुनने के मामले में, आपको बेहतर करना होगा)

स्रोत

2010-05-11 09:01:42 Unreason

मुझे ध्वनि स्रोत से कोई _meaning_ नहीं मिल रहा है। उदाहरण के तौर पर, यदि मैं दो कुत्ते की छाल और घोड़े के झुंड रिकॉर्ड करता हूं, तो दो कुत्ते के भौंकने की तुलना में एक झुंड के साथ भौंकने की तुलना में _higher_ गुणांक देना चाहिए। – ohho

@ होरेस हो, ने – Unreason

मैं rec भाषण मान्यता http://htk.eng.cam.ac.uk/, विशेष रूप से सुविधा निष्कर्षण पर भाग के लिए एचटीके टूलकिट में एक नज़र डालने के लिए तैयार करें।

विशेषताएं है कि मैं ग्रहण करेंगे अच्छा संकेतक होने के लिए:

मेल-cepstrum गुणांक (सामान्य लय)
LPC (हार्मोनिक्स के लिए)

स्रोत

2010-05-11 09:45:40 miquelramirez

+1 के उत्तर के रूप में EDIT में जवाब दिया – Unreason

लिंक के लिए लाइसेंस (http://htk.eng.cam.ac.uk/docs/license.shtml) टूलकिट का उपयोग करने की अनुमति देता है वितरण के लिए एक और आवेदन? – ohho

मुझे जो याद है वह बेहद प्रतिबंधित है। हालांकि आप http://clam-project.org/ को भी आजमा सकते हैं जो फ्री-सॉफ्टवेयर है। आपको एचटीके (और कुछ और) द्वारा प्रदान किए गए फीचर निष्कर्षण एल्गोरिदम का कुशल कार्यान्वयन मिलेगा। – miquelramirez

आवाज तुलना के लिए एल्गोरिदम

उत्तर

संबंधित मुद्दे