6

के लिए सीएमयू स्फिंक्स मैं एक ज्ञात डेटा सेट से मेल खाने का एक तरीका ढूंढ रहा हूं, आइए एमपी 3 या वाव फाइलों की एक सूची कहें, प्रत्येक जो किसी के बोलने का नमूना है। इस बिंदु पर मुझे पता है कि फ़ाइल एबीसी व्यक्ति एक्स बोलने वाला है।वॉयस/स्पीकर पहचान

मैं फिर एक और नमूना लेना चाहूंगा, और यह दिखाने के लिए कुछ आवाज़ मिलान करूँगा कि यह आवाज किस ज्ञात डेटा सेट के बाद सबसे अधिक संभावना है।

इसके अलावा, मुझे जरूरी नहीं है कि व्यक्ति ने क्या कहा है, जब तक कि मैं एक मैच पा सकूं, यानी मुझे किसी भी ट्रांसक्रिप्शन या अन्यथा की आवश्यकता नहीं है।

मुझे पता है कि सीएमयू स्फिंक्स आवाज पहचान नहीं करता है, और इसका मुख्य रूप से वॉयस-टू-टेक्स्ट के लिए उपयोग किया जाता है, लेकिन मैंने अन्य प्रणालियों को देखा है, उदाहरण के लिए: LIUM स्पीकर डायराइजेशन (http: //cmusphinx.sourceforge। नेट/विकी/स्पीकरडाइराइजेशन) या वॉयसआईडी प्रोजेक्ट (https://code.google.com/p/voiceid/) जो इस प्रकार के काम के लिए आधार के रूप में सीएमयू का उपयोग करता है।

यदि मैं सीएमयू का उपयोग करना चाहता हूं, तो मैं ध्वनि मिलान कैसे कर सकता हूं?

इसके अलावा, अगर सीएमयू स्फिंक्स सबसे अच्छा ढांचा नहीं है, तो क्या कोई वैकल्पिक विकल्प है जो ओपन सोर्स है?

+1

कोई भी अनुवर्ती? यह क्या किया? क्या आप सफल हुए? – Dariusz

उत्तर

2

यह एक ऐसा विषय है जो पीएचडी थीसिस के लिए जटिलता में पर्याप्त होगा। अभी के रूप में कोई अच्छी और भरोसेमंद प्रणाली नहीं है।

जो कार्य आप के लिए तैयार हैं वह बहुत ही जटिल है। आपको इसका दृष्टिकोण कैसे लेना चाहिए आपकी स्थिति पर निर्भर करता है।

  • क्या आपके पास सीमित मात्रा में लोग हैं? कितने?
  • प्रत्येक व्यक्ति के लिए आपके पास कितना डेटा है?

आप पहचान करने के लिए बहुत कम लोगों को है, तो आप उन लोगों के formants प्राप्त करने के लिए और उन्हें एक नमूना की तुलना के रूप में सरल कुछ प्रयास कर सकते हैं।

अन्यथा - आपको इस विषय पर काम करने वाले कुछ अकादमिकों से संपर्क करना होगा या जूरी रिग स्वयं का समाधान होगा। जैसा कि मैंने कहा, किसी भी तरह से, यह एक मुश्किल समस्या है।

+0

मैं आपके बयान के बारे में उत्सुक हूं कि कोई अच्छी और विश्वसनीय प्रणाली नहीं है। [यह पेपर] (http://publications.idiap.ch/downloads/papers/2012/Vijayasenan_INTERSPEECH2012_2012.pdf) ओपी द्वारा वर्णित चार डायराइजेशन फ्रेमवर्क और लियूम टूल (200 9 से) का उल्लेख काफी अच्छी तरह से किया जाता है उदा। स्फिंक्स समुदाय द्वारा। क्या इन मौजूदा दृष्टिकोणों में विशिष्ट सीमाएं हैं? –

+0

मुझे लिखा होगा "मुझे कोई नहीं पता"। फिर भी, क्या आपने इन परिणामों को देखा है? वे महान नहीं हैं। बॉयोमीट्रिक फीचर के रूप में आवाज का उपयोग करना अभी भी अविश्वसनीय है। – Dariusz

संबंधित मुद्दे