पहचानने के लिए स्थापित किया जा सकता है मेरे पास एक क्लाइंट है जिसके लिए एंड्रॉइड ऐप की आवश्यकता है जो बोले गए आदेशों को पहचान सकता है। पाठ कार्यक्षमता में अंतर्निहित आवाज को समझने से मैं वास्तव में Google के सर्वर पर डेटा भेजता हूं जो फिर एक टेक्स्ट अनुवाद भेजता है। यह एक बड़ी समस्या है, क्योंकि आवाज डेटा बेहद संवेदनशील है (जब तक कि Google को Google से भेजे जाने पर डेटा एन्क्रिप्ट नहीं किया जाता है - लेकिन मुझे संदेह है कि यह एन्क्रिप्ट किया गया है)।क्या सीएमयू स्फिंक्स ~ 200 शब्द
ऐसे 2 विकल्प हैं जिन्हें मैं सोच सकता हूं। सबसे पहले एंड्रॉइड पर भाषण-टू-टेक्स्ट को कन्वर्ट करना है, हालांकि ऐसा लगता है कि यह एक बेहद महंगी ऑपरेशन होगा। दूसरी संभावना यह है कि एक स्थानीय सर्वर मेरे लिए डेटा को परिवर्तित करना है (मैं ध्वनि डेटा और अनुवाद को एन्क्रिप्ट कर सकता हूं जब इसे भेजा जा रहा है)। क्या यह कुछ सीएमयू स्फिंक्स खींच सकता है? यह ध्यान देने योग्य हो सकता है कि मुझे एस्टरिस्क सर्वर तक पहुंच भी होगी, जो संभवत: इसमें सहायता कर सकती है (मुझे नहीं पता)।
असल में, केवल 200 शब्द होना चाहिए जिन्हें पहचानने की आवश्यकता होगी। मैं ओपनसोर्स/मुफ्त सॉफ्टवेयर समाधान पसंद करूंगा हालांकि मैं एक वाणिज्यिक समाधान (शायद फ्लेक्सटी 9) के लिए भी खुला हूं। आदर्श रूप से, मैं कहीं ऑडियो स्ट्रीम भेज सकता हूं, एक स्ट्रिंग वापस प्राप्त कर सकता हूं जो पाठ है, और फिर मैं स्ट्रिंग के साथ अन्य चीजों को पार्स कर सकता हूं।
मैंने अतीत में अधिक एंड्रॉइड या कोई भाषण मान्यता विकास नहीं किया है, इसलिए मुझे उम्मीद है कि कोई मुझे कम से कम सही दिशा में इंगित कर सकता है। धन्यवाद!
क्या माइक्रोसॉफ्ट का समाधान एंड्रॉइड के लिए उपलब्ध है (जिसे आप सुझाव दे रहे हैं) भी? – srf
यह सिर्फ एक सर्वर पक्ष घटक है। ऑडियो को कैप्चर करने और इसे सर्वर पर भेजने के लिए आपको अपना खुद का क्लाइंट कार्यान्वयन बनाना होगा। –