2010-05-11 15 views
8

डिजिटल प्रारूप में दो रिकॉर्ड की गई आवाज़ें देखते हुए, क्या दोनों की तुलना करने और समानता के गुणांक को वापस करने के लिए एक एल्गोरिदम है?आवाज तुलना के लिए एल्गोरिदम

+4

आप _speakers_ अगर निर्धारित करने के लिए कोशिश कर रहे हैं वही या समान हैं, या यदि _speech खुद_ समान या समान है या दोनों? –

+0

क्षमा करें कि मैंने यह स्पष्ट नहीं किया: वक्ताओं से स्वतंत्र पसंद किया जाता है। मैं _speech_ _itself_ की समानता की तलाश में हूं। – ohho

उत्तर

3

कई अलग अलग एल्गोरिदम रहे हैं - इस कार्य के लिए सामान्य नाम Speaker Identification है - वहाँ से इस विकिपीडिया पृष्ठ और काम के साथ शुरू: http://en.wikipedia.org/wiki/Speaker_recognition

0

मुझे यकीन है कि इस soundfiles के लिए काम करेंगे नहीं कर रहा हूँ, लेकिन यह आप एक देता है मुझे उम्मीद है कि आगे बढ़ने का विचार करें। यह एक मूल तरीका है कि किसी अन्य छवि में पैटर्न (छवि) कैसे ढूंढें।

आपको पहले ध्वनिफाइल दोनों की एफएफटी की गणना करना है और फिर एक सहसंबंध करना है। फ़ॉर्म्यूलर में यह (स्यूडोकोड) दिखाई देगा:

fftSoundFile1 = fft(soundFile1); 
fftConjSoundFile2 = conj(fft(soundFile2)); 
result_corr = real(ifft(soundFile1.*soundFile2)); 

कहाँ fft = तेजी से फूरियर, को बदलने IFFT = उलटा, संयोजक = संयुग्म जटिल। एफएफटी ध्वनिफाइल के नमूना मानों पर किया जाता है। परिणाम_corr वेक्टर में चोटियों तो आपको उच्च सहसंबंध की स्थिति दे देंगे। ध्यान दें कि इस मामले में दोनों ध्वनिफाइलों को एक ही आकार का होना चाहिए-अन्यथा आपको छोटे (ध्वनिफाइल लम्बाई) वेक्टर की फ़ाइल में छोटा रखना होगा।

सादर

संपादित करें:। * का अर्थ है (matlab शैली में) एक घटक बुद्धिमान mult, आप एक वेक्टर mult नहीं करना चाहिए! अगला संपादित करें: ध्यान दें कि आपको जटिल संख्याओं के साथ परिचालन करना है - लेकिन वहां कई जटिल कक्षाएं हैं इसलिए मुझे लगता है कि आपको इसके बारे में परेशान करने की आवश्यकता नहीं है।

+1

यह एक कामकाजी समाधान होने के करीब भी नहीं है। भाषण का स्पेक्ट्रम समय अलग-अलग और शोर है। आप भाषण के बहुत छोटे से हिस्से के लिए वास्तव में ऐसा कुछ कर सकते हैं जहां स्पीकर कह रहा है, उदा। वही स्वर, और फिर भी शायद यह बहुत अच्छी तरह से काम नहीं करेगा, अगर बिल्कुल भी। –

+0

क्षमा करें, मैं एक "भाषण विशेषज्ञ" नहीं हूं, लेकिन मैंने एक सरल "थ्रेस ध्वनिफाइल कैसे हैं" के लिए सोचा, यह तथ्य के कारण, यह पहली बार ठीक होगा, यह छवियों के साथ काम करता है। – InsertNickHere

4

आपकी स्पष्टीकरण को देखते हुए मुझे लगता है कि आप जो खोज रहे हैं वह speech recognition algorithms के अंतर्गत आता है।

भले ही आप केवल समानता के उपाय की तलाश में हैं और भाषण को पाठ में बदलने की कोशिश नहीं कर रहे हैं, फिर भी अवधारणाएं समान हैं और अगर मुझे एल्गोरिदम का एक बड़ा हिस्सा काफी उपयोगी होगा तो मुझे आश्चर्य नहीं होगा।

हालांकि, आप को समानता के इस गुणांक को अधिक औपचारिक रूप से परिभाषित करना होगा और कहीं भी प्राप्त करना होगा।

संपादित करें: मुझे विश्वास है कि भाषण मान्यता एल्गोरिदम उपयोगी होंगे क्योंकि वे कुछ ज्ञात रूपों की ध्वनि और तुलना के अमूर्त हैं। संकल्पनात्मक रूप से यह दो रिकॉर्डिंग लेने, उन्हें सारणित करने और उनकी तुलना करने से अलग नहीं हो सकता है।

HMM

"पर विकिपीडिया लेख वाक् पहचान में से, छिपा मार्कोव मॉडल उत्पादन एक दृश्य n आयामी वास्तविक मूल्य वैक्टर की (एन एक छोटे पूर्णांक किया जा रहा है के साथ होता है, जैसे 10), इन हर 10 मिलीसेकेंड में से एक outputting। वैक्टर , Cepstral गुणांकों को मिलाकर होगा जो ले जा रहा एक फूरियर भाषण के कुछ ही समय के विंडो के बदलने और स्पेक्ट्रमdecorrelating द्वारा प्राप्त कर रहे हैंकोसाइन ट्रांसफॉर्म का उपयोग करते हुए, पहले (सबसे महत्वपूर्ण) गुणांक लेते हैं।"

तो तुम गुणांक कि रिकॉर्डिंग का प्रतिनिधित्व के साथ खत्म होगा यदि आप दोनों रिकॉर्डिंग पर इस तरह के एक एल्गोरिथ्म चलाने के लिए और यह अब तक का आकलन करें और दो के बीच समानता स्थापित करने के लिए आसान हो सकता है।

लेकिन अब फिर से आप 'समानता गुणांक' को परिभाषित करने और कुत्तों और घोड़ों को शुरू करने के सवाल पर आते हैं, वास्तव में मदद नहीं करते थे।

(वैसे यह थोड़ा सा करता है, लेकिन एल्गोरिदम का मूल्यांकन करने और एक दूसरे को चुनने के मामले में, आपको बेहतर करना होगा)

+0

मुझे ध्वनि स्रोत से कोई _meaning_ नहीं मिल रहा है। उदाहरण के तौर पर, यदि मैं दो कुत्ते की छाल और घोड़े के झुंड रिकॉर्ड करता हूं, तो दो कुत्ते के भौंकने की तुलना में एक झुंड के साथ भौंकने की तुलना में _higher_ गुणांक देना चाहिए। – ohho

+0

@ होरेस हो, ने – Unreason

4

मैं rec भाषण मान्यता http://htk.eng.cam.ac.uk/, विशेष रूप से सुविधा निष्कर्षण पर भाग के लिए एचटीके टूलकिट में एक नज़र डालने के लिए तैयार करें।

विशेषताएं है कि मैं ग्रहण करेंगे अच्छा संकेतक होने के लिए:

  • मेल-cepstrum गुणांक (सामान्य लय)
  • LPC (हार्मोनिक्स के लिए)
+0

+1 के उत्तर के रूप में EDIT में जवाब दिया – Unreason

+0

लिंक के लिए लाइसेंस (http://htk.eng.cam.ac.uk/docs/license.shtml) टूलकिट का उपयोग करने की अनुमति देता है वितरण के लिए एक और आवेदन? – ohho

+0

मुझे जो याद है वह बेहद प्रतिबंधित है। हालांकि आप http://clam-project.org/ को भी आजमा सकते हैं जो फ्री-सॉफ्टवेयर है। आपको एचटीके (और कुछ और) द्वारा प्रदान किए गए फीचर निष्कर्षण एल्गोरिदम का कुशल कार्यान्वयन मिलेगा। – miquelramirez

संबंधित मुद्दे