2014-09-20 5 views
11

के सभी (या बड़ी राशि) को पहचानो, मैं गूगल के आवाज की पहचान एपीआई का इस्तेमाल किया। मुझे एक खोज नाम या एक शब्दकोश फ़ाइल सेट करने की आवश्यकता नहीं थी। यह सिर्फ हर शब्द को पहचाना गया था जिसे बताया गया था।CMUSphinx PocketSphinx - इससे पहले कि मैं Android के लिए PocketSphinx इस्तेमाल किया करने की कोशिश की शब्द

अब, PocketSphinx में, मैं यह करने के लिए की जरूरत है। लेकिन मैं केवल एक शब्द के लिए मान्यता निर्धारित करने के लिए, या शब्दकोश सेट करने के लिए (डेमो प्रोजेक्ट में उपलब्ध कुछ शब्द केवल कुछ शब्द हैं) कि पहचानकर्ता सोचता है कि ये एकमात्र शब्द मौजूद हैं, जिसका अर्थ है कि अगर कोई ऐसा कुछ कहता है, पहचानकर्ता शब्द को उस शब्द को सोचता है जो शब्दकोश में सूचीबद्ध है।

मैं सिर्फ पूछना चाहता हूँ, मैं कुछ खोज के नाम कैसे निर्धारित कर सकता है, या फिर मैं कैसे निर्धारित कर सकते हैं यह सब शब्द उपलब्ध (या यहां तक ​​कि उनमें से एक बड़ी राशि) को पहचान के लिए? शायद किसी के पास बड़ी संख्या में शब्दों के साथ एक शब्दकोश फ़ाइल है?

+0

मैं भी जरूरत है same.did आप शब्दों के ऐसे किसी भी सूची मिल? – SandeepAggarwal

उत्तर

16

इससे पहले कि मैंने एंड्रॉइड के लिए पॉकेटस्फिनक्स का उपयोग करने की कोशिश की, मैंने Google की आवाज पहचान API का उपयोग किया। मुझे एक खोज नाम या एक शब्दकोश फ़ाइल सेट करने की आवश्यकता नहीं थी। यह सिर्फ हर शब्द को पहचाना गया था जिसे बताया गया था।

Google एपीआई शब्दों का एक बड़ा लेकिन अभी भी सीमित सेट पहचानता है। लंबे समय तक यह "Spotify" को पहचानने में विफल रहा। Google ऑफ़लाइन भाषण पहचानकर्ता उनके publication में वर्णित 50k शब्दों का उपयोग करता है।

मैं सिर्फ पूछना चाहता हूं, मैं कुछ खोज नाम कैसे सेट कर सकता हूं, या मैं इसे उपलब्ध सभी शब्दों को पहचानने के लिए कैसे सेट कर सकता हूं (या यहां तक ​​कि उनमें से एक बड़ी राशि)? शायद किसी के पास बड़ी संख्या में शब्दों के साथ एक शब्दकोश फ़ाइल है?

डेमो में एक भाषा मॉडल (पूर्वानुमान भाग) के साथ बड़ी शब्दावली भाषण मान्यता शामिल है। डाउनलोड करने के लिए उपलब्ध अंग्रेजी भाषा के लिए बड़ा भाषा मॉडल है, उदाहरण के लिए En-US generic language model

मान्यता को चलाने के लिए सरल कोड है कि तरह है:

recognizer = defaultSetup() 
    .setAcousticModel(new File(assetsDir, "en-us-ptm")) 
    .setDictionary(new File(assetsDir, "cmudict-en-us.dict")) 
    .getRecognizer(); 
    recognizer.addListener(this); 

    // Create keyword-activation search. 
    recognizer.addNgramSearch(NGRAM_SEARCH, new File(assetsDir, "en-us.lm.bin");); 

    // Start the search 
    recognizer.startListening(NGRAM_SEARCH); 

हालांकि, वे वास्तविक समय में उपकरण और डिकोड में फिट करने के लिए आसान नहीं हैं। यदि आप बड़ी शब्दावली के साथ रीयलटाइम में भाषण को डीकोड करना चाहते हैं तो आपको सर्वर पर ऑडियो स्ट्रीम करने की आवश्यकता है। या आपको सामान्य अंग्रेजी के कुछ छोटे सबसेट में शब्दावली और भाषा को प्रतिबंधित करने की आवश्यकता है। आप tutorial में सीएमयूएसफ़िनक्स में भाषण मान्यता के बारे में अधिक जान सकते हैं।

+0

उदाहरण के लिए लिंक एन अमेरिकी जेनेरिक भाषा मॉडल टूट गया है। :-( –

+0

क्षमा करें, मेरे लिए काम करता है। तुम भी http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models तलाश कर सकते हैं/अमेरिका% 20English/ –

+0

@NikolayShmyrev आप इस एक के साथ मेरी मदद मन होता https://sourceforge.net/p/cmusphinx/discussion/help/thread/5fd09180/ – blackHawk

संबंधित मुद्दे