14

डेस्कटॉप या ब्राउज़र वातावरण के लिए ज्ञात एपीआई की एक व्यापक सूची है?टेक्स्ट-टू-स्पीच (वॉयस पीढ़ी) और भाषण-से-पाठ (आवाज पहचान) एपीआई?

+0

एक बहुत व्यापक सवाल यह है कि यही कारण है कि में लिखा है। क्या आप एपीआई या कार्यान्वयन में रूचि रखते हैं? क्या इस भाषा को सीमित करने के लिए आप कोई भाषा या मंच विकल्प चुन सकते हैं? –

+0

मुझे पता है कि वास्तव में कुछ अच्छे समाधान हैं, इसलिए मैंने फैसला किया कि मैं उनके लिए अच्छा टेक्स्ट-टू-स्पीच और भाषण-पाठ-पाठ की उपलब्धता के आधार पर मंच (व्यापक अर्थ में) और प्रोग्रामिंग भाषा का चयन करता हूं। – Halst

उत्तर

29

मैं Speech recognition in C or Java or PHP? से एक उत्तर दोबारा जवाब दूंगा। यह कोई व्यापक तरह से है, लेकिन यह कुछ महीनों के लिए इन सवालों देख से के लिए आप


एक शुरुआत हो सकता है, मैंने देखा है सबसे डेवलपर विकल्प इस तरह टूट:

विंडोज लोगों - उपयोग सिस्टम। नेट या माइक्रोसॉफ्ट स्पीच की विशेषताएं। माइक्रोसॉफ्ट मुफ़्त माइक्रोसॉफ्ट प्रदान करता है। विंडोज 7 में एक पूर्ण भाषण इंजन शामिल है। अन्य मुफ्त में डाउनलोड करने योग्य हैं। एसएपीआई के नाम से जाने वाले इंजनों के लिए एक सी ++ एपीआई है। http://msdn.microsoft.com/en-us/magazine/cc163663.aspx पर देखें। या http://msdn.microsoft.com/en-us/library/ms723627(v=vs.85).aspx। विंडोज What is the difference between System.Speech.Recognition and Microsoft.Speech.Recognition?

लिनक्स लोगों के लिए माइक्रोसॉफ्ट इंजन पर अधिक पृष्ठभूमि - स्फिंक्स का अच्छा अनुसरण होता है। Nuance, Loquendo, AT&T, IBM, दूसरों - http://cmusphinx.sourceforge.net/ और http://cmusphinx.sourceforge.net/wiki/

वाणिज्यिक उत्पादों देखें। प्रत्येक विभिन्न भाषाओं के लिए अपने स्वयं के एसडीके और पुस्तकालय प्रदान करते हैं।

ऑनलाइन सेवा - Nuance, Yapme, ispeech.org, vlingo, अन्य। Nuance ने अपने डेवलपर प्रोग्राम में सुधार किया है और अब विकास के लिए आपको free access to their services देगा। याप (मेरा मानना ​​है) हाल ही में purchased by Amazon था, इसलिए हम वहां कुछ बदलाव देख सकते हैं।

बेशक यह भी सहायक हो सकता है - http://en.wikipedia.org/wiki/List_of_speech_recognition_software

एक जावा भाषण एपीआई नहीं है। जावा स्पीच एपीआई http://java.sun.com/products/java-media/speech/forDevelopers/jsapi-guide/Recognition.html में javax.speech.recognition देखें। मेरा मानना ​​है कि आपको अभी भी एक भाषण इंजन ढूंढना है जो इस एपीआई का समर्थन करता है। मैं पूरी तरह से स्फिंक्स इसका समर्थन करता है नहीं लगता है - http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#support_jsapi

अन्य अतः quesitons के बहुत सारे हैं: Need text to speech and speech recognition tools for Linux और pyspeech (python) - Transcribe mp3 files? जो http://code.google.com/p/pyspeech/ के बारे में बात करती है। आप http://code.google.com/p/dragonfly/

+1

एक और अनौपचारिक ऑनलाइन सेवा जिसे आपने याद किया वह Google की भाषण API है। जावा में कुछ एपीआई हुक का एक लिंक यहां दिया गया है: https://github.com/The-Shadow/java-speech-api – Skylion

+2

मुझे विश्वास नहीं है कि Google ने कभी भी अपना भाषण एपीआई सार्वजनिक रूप से सुलभ बना दिया है। लोगों ने इसे रिवर्स इंजीनियर किया है और इसका इस्तेमाल किया है, लेकिन मुझे विश्वास नहीं है कि Google तीसरे पक्ष के उपयोग के लिए इसका समर्थन करता है। मेरा मानना ​​है कि इसका उद्देश्य केवल क्रोम ब्राउज़र या एंड्रॉइड ऑपरेटिंग सिस्टम द्वारा उपयोग किया जाना है। Http://stackoverflow.com/a/12727910/90236 या http://stackoverflow.com/a/7889565/90236 –

+0

देखें Google की API क्रोम पर निःशुल्क पहुंच योग्य है। मेरा वेब-ऐप कार्यान्वयन: https://speechlogger.appspot.com –

2

टेक्स्ट टू स्पीच (वॉयस पीढ़ी) के प्रमुख एपीआई विक्रेता YAKiToMe! और iSpeech देख सकते हैं। YAKiToMe! मैं इसका उपयोग करता हूं क्योंकि मुझे उनकी आवाज की गुणवत्ता सबसे अच्छी पसंद है और वे कम से कम महंगे हैं (ज्यादातर मुफ्त)। वे कई भाषाओं में नर और मादा वक्ताओं का समर्थन करते हैं। Acapella, Nuance, Loquendo और iVona जैसे कुछ आवाज विक्रेताओं की सभ्य आवाज़ें हैं लेकिन उपयोग करने के लिए महंगी होती हैं।

1

यहां यह है कि आप इसे कैसे कर सकते हैं: नोट: यह Google से एक एपीआई है, इसलिए यह केवल क्रोम ब्राउज़र में काम करता है।

(लाइव डेमो देखें और यहाँ पूर्ण स्रोत कोड डाउनलोड http://purpledesign.in/blog/?p=33)

एक बटन

<input id="speech" type="text" speech="speech" x-webkit-speech="x-webkit-speech" onspeechchange="processspeech();" onwebkitspeechchange="processspeech();" /> 

को परिभाषित करने और में परिभाषित है कि आप क्या करना चाहते हैं एक समारोह में अपने जावास्क्रिप्ट फ़ाइल

इस तरह

function processspeech() 
    { 
    var speechtext=$("#speech").val(); 
    var elem = document.getElementById("test"); 
    elem.value = speechtext; 
    var notification="\"<span style=\"color:#F00; text-transform:uppercase;\">"+ speechtext + "</span>\" <br />*Is this what you said???"; 
    notify(notification); 
} 

यहां

<textarea> id="test"></textarea> 

भाषण पाठ क्षेत्र

+1

लिंक एक खाली होस्ट किए गए पृष्ठ पर निर्देशित करता है। –

संबंधित मुद्दे