11

मैंने एमएफसीसी और छुपे हुए मार्कोव मॉडल का उपयोग करके ध्वनि पहचान के लिए अवधारणा प्रणाली का सबूत विकसित किया है। जब मैं ज्ञात ध्वनियों पर सिस्टम का परीक्षण करता हूं तो यह आशाजनक परिणाम देता है। यद्यपि सिस्टम, जब किसी अज्ञात ध्वनि को इनपुट किया जाता है तो परिणाम निकटतम मैच के साथ आता है और स्कोर यह नहीं है कि यह एक अज्ञात ध्वनि है:छिपे हुए मार्कोव मॉडल थ्रेसहोल्डिंग

मैंने भाषण के लिए 3 छुपे हुए मार्कोव मॉडल को प्रशिक्षित किया है, एक के लिए पानी की नल से पानी आ रहा है और एक मेज पर दस्तक देने के लिए। तब मैं उन्हें अनदेखी डेटा पर परीक्षण करने और निम्नलिखित परिणाम प्राप्त:

input: speech 
HMM\knocking: -1213.8911146444477 
HMM\speech: -617.8735676792728 
HMM\watertap: -1504.4735097322673 

So highest score speech which is correct 

input: watertap 
HMM\knocking: -3715.7246152783955 
HMM\speech: -4302.67960438553 
HMM\watertap: -1965.6149147201534 

So highest score watertap which is correct 

input: knocking 
HMM\filler -806.7248912250212 
HMM\knocking: -756.4428782636676 
HMM\speech: -1201.686687761133 
HMM\watertap: -3025.181144273698 

So highest score knocking which is correct 

input: unknown 
HMM\knocking: -4369.1702184688975 
HMM\speech: -5090.37122832872 
HMM\watertap: -7717.501505674925 

यहाँ इनपुट एक अज्ञात आवाज़ है लेकिन यह अभी भी सबसे निकटतम मिलान रिटर्न के रूप में वहाँ थ्रेशोल्डिंग/कचरा छानने के लिए कोई प्रणाली है।

मुझे पता है कि एक ओओवी (शब्दावली से बाहर) को स्पॉट करने वाले कीवर्ड में कचरा या भराव मॉडल का उपयोग करके फ़िल्टर किया जा सकता है लेकिन यह कहता है कि इसे अज्ञात शब्दों के एक सीमित सेट का उपयोग करके प्रशिक्षित किया जाता है जहां यह मेरे लिए लागू नहीं किया जा सकता सिस्टम क्योंकि मैं उन सभी ध्वनियों को नहीं जानता जो सिस्टम रिकॉर्ड कर सकते हैं।

भाषण मान्यता प्रणाली में ऐसी ही समस्या हल हो गई है? और झूठी सकारात्मक से बचने के लिए मैं अपनी समस्या का समाधान कैसे कर सकता हूं?

+2

मुझे लगता है कि इसे क्रॉस मान्य में स्थानांतरित किया जाना चाहिए। – ziggystar

+3

मैं मानता हूं कि यह क्रॉस मान्य के अधिक (और बेहतर योग्य) ध्यान प्राप्त करेगा। अफसोस की बात है, बल्ले सिग्नल (उर्फ "पर्याप्त पर्याप्त अनुमतियों के साथ पर्याप्त आंखों") को बंद कर दिया जाता है, इसलिए राडेक को इसे वहां रखना होगा। ("पर निर्भर" में सीवी के लिए कोई विकल्प नहीं है या मैन्युअल रूप से निर्दिष्ट है कि यह कहां से संबंधित है। मेह।) – Godeke

उत्तर

3

अन्य शब्दों को अस्वीकार करने के लिए आपको एक फिलर मॉडल की आवश्यकता है।

यह एक सांख्यिकीय परिकल्पना परीक्षण है। आपके पास दो परिकल्पनाएं हैं (शब्द ज्ञात है और शब्द अज्ञात है)। निर्णय लेने के लिए आपको प्रत्येक परिकल्पना की संभावना का आकलन करने की आवश्यकता है।

फिलर मॉडल को आपके भाषण से प्रशिक्षित किया जाता है, बस एक अलग तरीके से, उदाहरण के लिए यह किसी भी भाषण ध्वनि के लिए एक गाऊशियन हो सकता है। आप जेनेरिक फिलर मॉडल से स्कोर की तुलना करते हैं और एचएमएम शब्द से स्कोर करते हैं और निर्णय लेते हैं। अधिक गहराई से जानकारी और उन्नत एल्गोरिदम के लिए आप कीवर्ड स्पॉटिंग पर कोई भी पेपर देख सकते हैं। इस शोध एक अच्छी समीक्षा है:

ACOUSTIC कीवर्ड डेटा खनन के अनुप्रयोगों के साथ भाषण में खोलना ए जे किशन Thambiratnam

http://eprints.qut.edu.au/37254/1/Albert_Thambiratnam_Thesis.pdf

1

तो क्या मैंने किया है है: मैं एक पूरक मॉडल की मेरी सरलीकृत संस्करण बनाया । ध्वनि और भाषण ध्वनि को खटखटाते हुए प्रत्येक हम्म एक अलग 6 राज्य हम्म है जो 30, 50, 9 0 ध्वनियों के प्रशिक्षण सेट से क्रमशः 0.3 सेकंड से 10 सेकंड के प्रशिक्षण सेट से ध्वनि से प्रशिक्षित होता है। फिर मैंने एक फिलर मॉडल बनाया जो 1 राज्य हम्म है जिसमें सभी प्रशिक्षण सेट दस्तक, वाटरटेप और भाषण के लिए लगता है। तो अगर हम्म मॉडल स्कोर भरने वाले स्कोर की तुलना में किसी दिए गए ध्वनि के लिए अधिक होता है - ध्वनि पहचाना जाता है अन्यथा यह एक अज्ञात ध्वनि है। मेरे पास वास्तव में बड़ा डेटा नहीं है लेकिन मैंने झूठी सकारात्मक अस्वीकृति और अदृश्य ध्वनियों पर वास्तविक सकारात्मक अस्वीकृति के लिए निम्नलिखित परीक्षण को प्रतिबिंबित किया है।

true positives rejection 
knocking 1/11 = 90% accuracy 
watertap 1/9 = 89% accuracy 
speech 0/14 = 100% accuracy 


false positives rejection 
Tested 7 unknown sounds 
6/7 = 86% accuracy 

तो यह त्वरित परीक्षण से मैं निष्कर्ष निकाल सकते हैं कि इस दृष्टिकोण उचित परिणाम देता है, हालांकि मैं एक अजीब लग रहा है कि यह पर्याप्त नहीं हो सकता है।

0

भ्रामक मॉडल जनरेटिव मॉडल की तुलना में वर्गीकरण कार्यों पर बेहतर प्रदर्शन करते हैं।

आप विशेष रूप से डिज़ाइन किए गए सीआरएफ या अधिकतम-मार्जिन क्लासिफ़ायर (संरचित svm) का उपयोग करके इस कार्य पर निश्चित रूप से बेहतर प्रदर्शन प्राप्त कर सकते हैं।

यह पेपर (http://ttic.uchicago.edu/~jkeshet/papers/KeshetGrBe07।पीडीएफ) आपके जैसा वर्गीकरण समस्या पर चर्चा करता है और दिखाता है कि अधिकतम मार्जिन फॉर्मूलेशन फिलर मॉडल के साथ जनरेटिव दृष्टिकोण को बेहतर बनाता है।

शायद बॉक्स के बाहर कुछ भी नहीं है जो मैंने वर्णित किया है, लेकिन, कुछ प्रयासों के साथ आप svm-struct का विस्तार करने में सक्षम हो सकते हैं। (एचएमएम-एसवीएम कार्यान्वयन आपकी समस्या के लिए काम नहीं करेगा क्योंकि आपको मनमाने ढंग से जुड़े छिपे हुए राज्य संरचना को सीखने के बजाय अग्रिम में छुपा राज्य संरचना निर्दिष्ट करने की आवश्यकता है।)

संबंधित मुद्दे