डिजिटल प्रारूप में दो रिकॉर्ड की गई आवाज़ें देखते हुए, क्या दोनों की तुलना करने और समानता के गुणांक को वापस करने के लिए एक एल्गोरिदम है?आवाज तुलना के लिए एल्गोरिदम
उत्तर
कई अलग अलग एल्गोरिदम रहे हैं - इस कार्य के लिए सामान्य नाम Speaker Identification
है - वहाँ से इस विकिपीडिया पृष्ठ और काम के साथ शुरू: http://en.wikipedia.org/wiki/Speaker_recognition
मुझे यकीन है कि इस soundfiles के लिए काम करेंगे नहीं कर रहा हूँ, लेकिन यह आप एक देता है मुझे उम्मीद है कि आगे बढ़ने का विचार करें। यह एक मूल तरीका है कि किसी अन्य छवि में पैटर्न (छवि) कैसे ढूंढें।
आपको पहले ध्वनिफाइल दोनों की एफएफटी की गणना करना है और फिर एक सहसंबंध करना है। फ़ॉर्म्यूलर में यह (स्यूडोकोड) दिखाई देगा:
fftSoundFile1 = fft(soundFile1);
fftConjSoundFile2 = conj(fft(soundFile2));
result_corr = real(ifft(soundFile1.*soundFile2));
कहाँ fft = तेजी से फूरियर, को बदलने IFFT = उलटा, संयोजक = संयुग्म जटिल। एफएफटी ध्वनिफाइल के नमूना मानों पर किया जाता है। परिणाम_corr वेक्टर में चोटियों तो आपको उच्च सहसंबंध की स्थिति दे देंगे। ध्यान दें कि इस मामले में दोनों ध्वनिफाइलों को एक ही आकार का होना चाहिए-अन्यथा आपको छोटे (ध्वनिफाइल लम्बाई) वेक्टर की फ़ाइल में छोटा रखना होगा।
सादर
संपादित करें:। * का अर्थ है (matlab शैली में) एक घटक बुद्धिमान mult, आप एक वेक्टर mult नहीं करना चाहिए! अगला संपादित करें: ध्यान दें कि आपको जटिल संख्याओं के साथ परिचालन करना है - लेकिन वहां कई जटिल कक्षाएं हैं इसलिए मुझे लगता है कि आपको इसके बारे में परेशान करने की आवश्यकता नहीं है।
यह एक कामकाजी समाधान होने के करीब भी नहीं है। भाषण का स्पेक्ट्रम समय अलग-अलग और शोर है। आप भाषण के बहुत छोटे से हिस्से के लिए वास्तव में ऐसा कुछ कर सकते हैं जहां स्पीकर कह रहा है, उदा। वही स्वर, और फिर भी शायद यह बहुत अच्छी तरह से काम नहीं करेगा, अगर बिल्कुल भी। –
क्षमा करें, मैं एक "भाषण विशेषज्ञ" नहीं हूं, लेकिन मैंने एक सरल "थ्रेस ध्वनिफाइल कैसे हैं" के लिए सोचा, यह तथ्य के कारण, यह पहली बार ठीक होगा, यह छवियों के साथ काम करता है। – InsertNickHere
आपकी स्पष्टीकरण को देखते हुए मुझे लगता है कि आप जो खोज रहे हैं वह speech recognition algorithms के अंतर्गत आता है।
भले ही आप केवल समानता के उपाय की तलाश में हैं और भाषण को पाठ में बदलने की कोशिश नहीं कर रहे हैं, फिर भी अवधारणाएं समान हैं और अगर मुझे एल्गोरिदम का एक बड़ा हिस्सा काफी उपयोगी होगा तो मुझे आश्चर्य नहीं होगा।
हालांकि, आप को समानता के इस गुणांक को अधिक औपचारिक रूप से परिभाषित करना होगा और कहीं भी प्राप्त करना होगा।
संपादित करें: मुझे विश्वास है कि भाषण मान्यता एल्गोरिदम उपयोगी होंगे क्योंकि वे कुछ ज्ञात रूपों की ध्वनि और तुलना के अमूर्त हैं। संकल्पनात्मक रूप से यह दो रिकॉर्डिंग लेने, उन्हें सारणित करने और उनकी तुलना करने से अलग नहीं हो सकता है।
HMM
"पर विकिपीडिया लेख वाक् पहचान में से, छिपा मार्कोव मॉडल उत्पादन एक दृश्य n आयामी वास्तविक मूल्य वैक्टर की (एन एक छोटे पूर्णांक किया जा रहा है के साथ होता है, जैसे 10), इन हर 10 मिलीसेकेंड में से एक outputting। वैक्टर , Cepstral गुणांकों को मिलाकर होगा जो ले जा रहा एक फूरियर भाषण के कुछ ही समय के विंडो के बदलने और स्पेक्ट्रमdecorrelating द्वारा प्राप्त कर रहे हैंकोसाइन ट्रांसफॉर्म का उपयोग करते हुए, पहले (सबसे महत्वपूर्ण) गुणांक लेते हैं।"
तो तुम गुणांक कि रिकॉर्डिंग का प्रतिनिधित्व के साथ खत्म होगा यदि आप दोनों रिकॉर्डिंग पर इस तरह के एक एल्गोरिथ्म चलाने के लिए और यह अब तक का आकलन करें और दो के बीच समानता स्थापित करने के लिए आसान हो सकता है।
लेकिन अब फिर से आप 'समानता गुणांक' को परिभाषित करने और कुत्तों और घोड़ों को शुरू करने के सवाल पर आते हैं, वास्तव में मदद नहीं करते थे।
(वैसे यह थोड़ा सा करता है, लेकिन एल्गोरिदम का मूल्यांकन करने और एक दूसरे को चुनने के मामले में, आपको बेहतर करना होगा)
मैं rec भाषण मान्यता http://htk.eng.cam.ac.uk/, विशेष रूप से सुविधा निष्कर्षण पर भाग के लिए एचटीके टूलकिट में एक नज़र डालने के लिए तैयार करें।
विशेषताएं है कि मैं ग्रहण करेंगे अच्छा संकेतक होने के लिए:
- मेल-cepstrum गुणांक (सामान्य लय)
- LPC (हार्मोनिक्स के लिए)
+1 के उत्तर के रूप में EDIT में जवाब दिया – Unreason
लिंक के लिए लाइसेंस (http://htk.eng.cam.ac.uk/docs/license.shtml) टूलकिट का उपयोग करने की अनुमति देता है वितरण के लिए एक और आवेदन? – ohho
मुझे जो याद है वह बेहद प्रतिबंधित है। हालांकि आप http://clam-project.org/ को भी आजमा सकते हैं जो फ्री-सॉफ्टवेयर है। आपको एचटीके (और कुछ और) द्वारा प्रदान किए गए फीचर निष्कर्षण एल्गोरिदम का कुशल कार्यान्वयन मिलेगा। – miquelramirez
- 1. डेटा खनन एल्गोरिदम तुलना
- 2. ग्राफ़/अणु तुलना एल्गोरिदम
- 3. शब्द तुलना एल्गोरिदम
- 4. टेक्स्ट तुलना एल्गोरिदम
- 5. मैट्रिक्स तुलना एल्गोरिदम
- 6. सी # तुलना एल्गोरिदम
- 7. मैं आईओएस पर दो आवाज नमूने की तुलना कैसे करूं?
- 8. एएसपी.NET वेब ऐप के लिए अतिरिक्त आवाज
- 9. समानता एल्गोरिदम की तुलना करें
- 10. शब्दों की तुलना करने के लिए एल्गोरिदम (वर्णानुक्रम में नहीं)
- 11. दो छवियों की तुलना करने के लिए एल्गोरिदम
- 12. आवाज रिकार्ड
- 13. आईफोन में आवाज नहीं आवाज से उड़ने का पता लगाने के लिए कैसे?
- 14. आवाज का पता लगाने
- 15. एक आवाज फोन
- 16. एंड्रॉइड में टेक्स्ट संपादित करने के लिए आवाज इनपुट?
- 17. मानव चेहरा, भावना और आवाज पहचान
- 18. विचारों की समानता की तुलना करने के लिए एल्गोरिदम (तारों के रूप में)
- 19. संख्याओं के लिए संपीड़न एल्गोरिदम केवल
- 20. खोज एल्गोरिदम लेकिन कार्यों के लिए
- 21. रैंकिंग आइटम के लिए एल्गोरिदम
- 22. पाइथन itertools.permutations के लिए एल्गोरिदम
- 23. कर्नलिंग divs के लिए एल्गोरिदम
- 24. डेटा मिलान करने के लिए एल्गोरिदम
- 25. एपस्टीन के एल्गोरिदम और केन सबसे कम पथ के लिए येन का एल्गोरिदम
- 26. दिनांक तुलना के लिए NSPredicateEditorRowTemplate
- 27. समकक्ष श्रेणियों के लिए एसटीएल एल्गोरिदम
- 28. क्या डिजस्ट्रा की तुलना में तेज़ एल्गोरिदम हैं?
- 29. एल्गोरिदम?
- 30. जटिलता या प्रदर्शन की तुलना में विभिन्न निर्णय पेड़ एल्गोरिदम
आप _speakers_ अगर निर्धारित करने के लिए कोशिश कर रहे हैं वही या समान हैं, या यदि _speech खुद_ समान या समान है या दोनों? –
क्षमा करें कि मैंने यह स्पष्ट नहीं किया: वक्ताओं से स्वतंत्र पसंद किया जाता है। मैं _speech_ _itself_ की समानता की तलाश में हूं। – ohho