13

यह करने के लिए http://www.google.com/speech-api/v2/recognize?...Google स्पीच रिकग्निशन एपीआई: प्रत्येक शब्द के लिए टाइमस्टैम्प? एक में मैं "पाँच के लिए एक दो तीन" ने कहा है:

उदाहरण के लिए एक अनुरोध करके एक ऑडियो फ़ाइल (WAV, एमपी 3, आदि) के लिए एक प्रतिलेखन प्राप्त करने के लिए गूगल के भाषण मान्यता एपीआई का उपयोग करना संभव है डब्ल्यूएवी फ़ाइल। गूगल एपीआई मुझे इस

{u'alternative': [{u'transcript': u'12345'}, {u'transcript': u'1 2 3 4 5'}, 
{u'transcript': u'one two three four five'}], u'final': True} 

प्रश्न देता है: समय (सेकंड में), जिस पर प्रत्येक शब्द कहा गया है प्राप्त करने के लिए यह संभव है?

मेरी उदाहरण के साथ

:

['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc. 

शब्द यानी "एक" समय 00 के बीच कहा गया है: 00: ००.२३ और 00: 00: ००.८०,
शब्द "दो" कहा गया है समय 00: 00: 01.03 और 00: 00: 01.45 (सेकेंड में)

पीएस: अंग्रेजी से विशेष रूप से फ़्रेंच की तुलना में अन्य भाषाओं का समर्थन करने वाले एपीआई की तलाश में।

+0

एचएम? अफैक्स गूगल भाषण api _does_ समर्थन फ्रेंच, है ना? – Ctx

+0

@ सीटीएक्स हाँ, लेकिन यह प्रत्येक शब्द – Basj

उत्तर

8

Google API के साथ यह संभव नहीं है।

आप शब्द timestamps चाहते हैं, आप उदाहरण के लिए अन्य APIs का उपयोग कर सकते हैं,:

CMUSphinx - मुफ्त ऑफ़लाइन बोली पहचान एपीआई

SpeechMatics SaaS speech recognition API

Speech Recognition API from IBM

+0

धन्यवाद के लिए टाइमस्टैम्प का समर्थन नहीं करता है! क्या आपने इन 3 एपीआई की कोशिश की है? क्या वे Google के जितने अच्छे हैं? मैं हर दिन आश्चर्यचकित हूं कि Google की भाषण मान्यता कैसे शक्तिशाली है। (मैं अपने एंड्रॉइड फोन पर अपने टेक्स्ट संदेश (जोर से) बोलता हूं, और फ़ोन लगभग कोई गलती नहीं करता है!) – Basj

+0

उन्हें सटीकता के मामले में तुलनीय होना चाहिए। –

+0

ऐसा लगता है कि उनमें से कोई भी फ्रांसीसी भाषा का समर्थन नहीं करता है। – Basj

संबंधित मुद्दे