2012-01-31 9 views
6

पहचानने के लिए स्थापित किया जा सकता है मेरे पास एक क्लाइंट है जिसके लिए एंड्रॉइड ऐप की आवश्यकता है जो बोले गए आदेशों को पहचान सकता है। पाठ कार्यक्षमता में अंतर्निहित आवाज को समझने से मैं वास्तव में Google के सर्वर पर डेटा भेजता हूं जो फिर एक टेक्स्ट अनुवाद भेजता है। यह एक बड़ी समस्या है, क्योंकि आवाज डेटा बेहद संवेदनशील है (जब तक कि Google को Google से भेजे जाने पर डेटा एन्क्रिप्ट नहीं किया जाता है - लेकिन मुझे संदेह है कि यह एन्क्रिप्ट किया गया है)।क्या सीएमयू स्फिंक्स ~ 200 शब्द

ऐसे 2 विकल्प हैं जिन्हें मैं सोच सकता हूं। सबसे पहले एंड्रॉइड पर भाषण-टू-टेक्स्ट को कन्वर्ट करना है, हालांकि ऐसा लगता है कि यह एक बेहद महंगी ऑपरेशन होगा। दूसरी संभावना यह है कि एक स्थानीय सर्वर मेरे लिए डेटा को परिवर्तित करना है (मैं ध्वनि डेटा और अनुवाद को एन्क्रिप्ट कर सकता हूं जब इसे भेजा जा रहा है)। क्या यह कुछ सीएमयू स्फिंक्स खींच सकता है? यह ध्यान देने योग्य हो सकता है कि मुझे एस्टरिस्क सर्वर तक पहुंच भी होगी, जो संभवत: इसमें सहायता कर सकती है (मुझे नहीं पता)।

असल में, केवल 200 शब्द होना चाहिए जिन्हें पहचानने की आवश्यकता होगी। मैं ओपनसोर्स/मुफ्त सॉफ्टवेयर समाधान पसंद करूंगा हालांकि मैं एक वाणिज्यिक समाधान (शायद फ्लेक्सटी 9) के लिए भी खुला हूं। आदर्श रूप से, मैं कहीं ऑडियो स्ट्रीम भेज सकता हूं, एक स्ट्रिंग वापस प्राप्त कर सकता हूं जो पाठ है, और फिर मैं स्ट्रिंग के साथ अन्य चीजों को पार्स कर सकता हूं।

मैंने अतीत में अधिक एंड्रॉइड या कोई भाषण मान्यता विकास नहीं किया है, इसलिए मुझे उम्मीद है कि कोई मुझे कम से कम सही दिशा में इंगित कर सकता है। धन्यवाद!

उत्तर

10

CMUSphinx एक ओपन सोर्स भाषण मान्यता टूलकिट है जिसका उपयोग आप अपने आवेदन के निर्माण के लिए कर सकते हैं। इसमें उपकरण, पुस्तकालय और डेटा शामिल हैं जो आपको भाषण एप्लिकेशन बनाने में सक्षम बनाएंगे। आप उपरोक्त वेबसाइट पर सीएमयूएसफ़िनक्स के बारे में अधिक जान सकते हैं।

एंड्रॉयड पर आप कई विकल्प हैं CMUSphinx उपयोग करने के लिए:

  1. डिवाइस पर ऑडियो पहचानो। इसके लिए आप एंड्रॉइड के लिए पॉकेट्सफिनक्स इंजन संकलित कर सकते हैं। विवरण के लिए see this blog post

  2. सर्वर पर ऑडियो पहचानें। एक सर्वर के रूप में आप या तो पॉकेट्सफिनक्स या स्फिंक्स 4 का उपयोग कर सकते हैं। आप संकुचित फ्लैक प्रारूप में ऑडियो भेज सकते हैं या डिवाइस पर भाषण मान्यता सुविधाओं को निकाल सकते हैं और सर्वर पर फीचर स्ट्रीम भेज सकते हैं।

CMUSphinx आप कई ध्वनिक मॉडल है जो आप अंग्रेजी की तरह कई भाषाओं में ऑडियो को पहचानने में सक्षम हो जाएगा प्रदान करता है, फ्रेंच, मंदारिन, जर्मन, डच, रूसी।

आप अनुकूलन टूल के साथ मान्यता परिणाम भी सुधार सकते हैं।

यदि आपके पास CMUSphinx पर कोई प्रश्न हैं तो आपको ask in our community forums पर आपका स्वागत है।

4

बंद स्रोत, लेकिन मुफ़्त, माइक्रोसॉफ्ट भाषण इंजन है। कुछ पृष्ठभूमि के लिए What is the difference between System.Speech.Recognition and Microsoft.Speech.Recognition? देखें। कुछ और पृष्ठभूमि के लिए आप https://stackoverflow.com/a/4217638/90236

माइक्रोसॉफ्ट सर्वर स्पीच प्लेटफ़ॉर्म 11 के लिए पूर्ण एसडीके http://www.microsoft.com/download/en/details.aspx?id=27226 पर उपलब्ध हो सकता है। भाषण इंजन एक मुफ्त डाउनलोड है।

+0

क्या माइक्रोसॉफ्ट का समाधान एंड्रॉइड के लिए उपलब्ध है (जिसे आप सुझाव दे रहे हैं) भी? – srf

+0

यह सिर्फ एक सर्वर पक्ष घटक है। ऑडियो को कैप्चर करने और इसे सर्वर पर भेजने के लिए आपको अपना खुद का क्लाइंट कार्यान्वयन बनाना होगा। –

संबंधित मुद्दे