2009-12-22 13 views
12

मैं भाषण मान्यता और भाषण रूपांतरण के लिए पाठ करने के लिए विभिन्न तकनीकों के बारे में जानना चाहता हूं। कृपया मुझे लिंक, ट्यूटोरियल, ईबुक इत्यादि जैसे किसी भी संसाधन के बारे में बताएं।सी ++ में भाषण मान्यता और टेक्स्ट-टू-स्पीच को कैसे कार्यान्वित करें?

इसे प्राप्त करने के लिए सबसे प्रभावी तकनीक कौन सा है?

उत्तर

8

मैं भाषण मान्यता के बारे में हिस्सा जवाब देने के लिए (के बाद से मैं के बारे में पाठ से वाक् ज्यादा पता नहीं है) जा रहा हूँ:

http://ecx.images-amazon.com/images/I/4190SZC61CL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg

यह पुस्तक, "वाक् पहचान के लिए सांख्यिकीय तरीकों" एक क्लासिक है जो उस क्षेत्र के संस्थापक फ्रेडरिक जेलेक द्वारा लिखित सांख्यिकीय भाषण मान्यता की गणितीय नींव बताता है।

आपको सबसे महत्वपूर्ण अवधारणा जानना है Hidden Markov Models। लोग दशकों से भाषण मान्यता में उनका उपयोग कर रहे हैं। एक हालिया दृष्टिकोण Conditional Random Fields का उपयोग करता है, paper (PDF) और संबंधित सॉफ़्टवेयर टूलकिट SCARF देखें।

अपने भाषण पहचानकर्ता को लिखना काफी मुश्किल है। यह कई वैज्ञानिक सम्मेलनों के साथ एक सक्रिय शोध क्षेत्र है, उदा। ASRU, Interspeech, ICASSP

3

जब से तुम एमएस उल्लेख -

तुम बस Microsoft Speech स्थल पर दिखना चाहिए। इसमें टीटीएस और भाषण मान्यता सहित भाषण से निपटने के लिए कई संसाधन शामिल हैं।

3

यदि आप कुछ वास्तविक कोड की तलाश में हैं, तो Sphinx देखें, सीएमयू से एक ओपन सोर्स भाषण मान्यता परियोजना। यह सी ++ में लिखा नहीं गया है, लेकिन यदि आप एल्गोरिदम में रुचि रखते हैं, तो यह उन चीजों का एक समूह लागू किया गया है जिन्हें आप सीख सकते हैं। (मैं @ dehmann बिंदु प्रतिध्वनित करने के लिए भी करना चाहते हैं: छिपा मार्कोव मॉडल के बारे में पढ़ें।)

6

दोनों बहुत व्यापक क्षेत्र हैं। पहचान के बारे में: इस this schema में आप एक बुनियादी स्वचालित भाषण मान्यता प्रणाली का निर्माण कैसे करेंगे। यह कला की शुरुआत के करीब किसी भी तरह से नहीं है, लेकिन यह कुछ प्राप्त करने योग्य है और यह काम करता है। यदि आप कुछ और उन्नत करना चाहते हैं, तो सेप्स्ट्रल गुणांक और छिपे हुए मार्कोव मॉडल के बारे में पढ़ें। HTK पर एक नज़र डालें, यह छुपे हुए मार्कोव मॉडल के लिए व्यापक रूप से उपयोग की जाने वाली टूलकिट है।

भाषण के पाठ के बारे में: मुझे Festival पर एक नज़र डालेंगी।

4

कई स्फिंक्स हैं। मुख्य सक्रिय वाले पॉकेट्सफिनक्स और स्फिंक्स 4 हैं।

स्फिंक्स 4 जावा में लिखा गया है। यह डेस्कटॉप और वेब अनुप्रयोगों के लिए बेहतर है।

Pocketsphinx सी में लिखा है यह एम्बेडेड उपकरणों के लिए बेहतर है। वहाँ है कि इसका इस्तेमाल iPhone/एंड्रॉयड ऐप्लिकेशन हैं।

लगता है कि आपने pocketsphinx चाहते हैं। इस ट्यूटोरियल को आजमाएं: http://www.speech.cs.cmu.edu/sphinx/tutorial.html

पॉकेट्सफिनक्स/स्फिंक्स 4 प्रश्न पूछने के लिए एक बेहतर जगह सीएमयू के स्रोत फोर्ज मंच पर है।

इसके अलावा, आप क्या आप करने का इरादा तरह और अधिक जानकारी प्रदान करना चाहिए।

पुस्तकों के लिए के रूप में, वाक् पहचान की बाईबल "बोले जाने वाले भाषा संसाधन" है

+0

एंड्रॉइड पर पॉकेटस्फिनक्स को चलाने के लिए कोई निर्देश हैं? (यह प्रश्न देखें: http://stackoverflow.com/questions/2920870/pocket-sphinx-on-android) – gregm

1

आप क्या आपके फैंसी भाषण मान्यता के साथ क्या करना के बारे में उत्सुक हैं, तो पढ़ना चाहिए: वॉयस इंटरेक्शन डिजाइन रैंडी एलन हैरिस

द्वारा

यह ध्वनि का उपयोग कब करें और एप्लिकेशन में इसका उपयोग कैसे करें इसके बारे में कुछ अच्छी सलाह प्रदान करता है।

संबंधित मुद्दे