2016-08-01 9 views
14

स्टैक ओवरफ़्लो इस प्रश्न से पूछने के लिए सबसे अच्छी जगह नहीं हो सकती है लेकिन मुझे सहायता चाहिए। मेरे पास एक एमपी 3 फ़ाइल है और मैं उस फ़ाइल से टेक्स्ट प्राप्त करने के लिए Google की भाषण मान्यता का उपयोग करना चाहता हूं। कोई भी विचार जहां मैं दस्तावेज या उदाहरण पा सकते हैं की सराहना की जाएगी।पायथन में Google भाषण मान्यता एपीआई का उपयोग कैसे करें?

+0

यह सवाल काफ़ी व्यापक है और छूट के लिए एक अनुरोध है साइट संसाधन जो स्टैक ओवरफ़्लो के लिए विषय बंद है। एकमात्र कारण यह अभी तक बंद नहीं किया गया है, जो बाउंटी संलग्न है। – JAL

+0

मुझे लगता है कि आप इसे देखना चाहते हैं: https://github.com/GoogleCloudPlatform/python-docs-samples/tree/master/speech – blambert

उत्तर

31

कि डेवलपर्स के लिए सक्षम बनाता पाठ में ऑडियो कन्वर्ट करने के लिए Google Cloud Speech API पर एक नजर डालें [...] एपीआई 80 से अधिक भाषाओं और वेरिएंट को पहचानता है [...] आप एक नि: शुल्क खाता API अनुरोध की एक सीमित मात्रा में प्राप्त करने के लिए बना सकते हैं ।

कैसे करें: मेघ प्लेटफ़ॉर्म कंसोल में फिर

pip install --upgrade gcloud 
pip install --upgrade google-api-python-client 

, परियोजनाओं पृष्ठ पर जाएँ और चुनें या एक नया प्रोजेक्ट बनाने:

आप के साथ gcloud python module & google-api-python-client मॉड्यूल स्थापित करने के लिए पहली जरूरत है। आपके प्रोजेक्ट के लिए बिलिंग सक्षम करने के बाद, enable Cloud Speech API

Google मेघ वाक् API को सक्षम करने के बाद, अपने बादल वाक् API साख स्थापित करने के लिए साख बटन पर जाएं पर क्लिक

कैसे अपने कोड से बादल वाक् API सेवा करने के लिए अधिकृत करने के लिए के बारे में जानकारी के लिए देखें Set Up a Service Account

आपको और Google को, दोनों एक सेवा खाता कुंजी फ़ाइल (JSON में) और एक GOOGLE_APPLICATION_CREDENTIALS वातावरण चर है कि आप वाक् API

को प्रमाणित करने के लिए एक बार सभी से किया की अनुमति देगा प्राप्त करना चाहिए download the audio raw file भी speech-discovery_google_rest_v1.json जाने से Ogle

पिछले डाउनलोड किया JSON फ़ाइल संशोधित करें आपके क्रेडेंशियल्स स्थापित करने के लिए कुंजी तो सुनिश्चित करें कि आप के साथ .json फ़ाइल का पूरा पथ के लिए अपने GOOGLE_APPLICATION_CREDENTIALS वातावरण चर सेट किया हुआ है:

export GOOGLE_APPLICATION_CREDENTIALS=/path/to/service_account_file.json 
भी

सुनिश्चित करें कि आपने अपने Google क्लाउड प्रोजेक्ट की आईडी में अपना GCLOUD_PROJECT पर्यावरण चर सेट किया है:

export GCLOUD_PROJECT=your-project-id 
तब चलाने

import argparse 
import base64 
import json 

from googleapiclient import discovery 
import httplib2 
from oauth2client.client import GoogleCredentials 


DISCOVERY_URL = ('https://{api}.googleapis.com/$discovery/rest?' 
       'version={apiVersion}') 


def get_speech_service(): 
    credentials = GoogleCredentials.get_application_default().create_scoped(
     ['https://www.googleapis.com/auth/cloud-platform']) 
    http = httplib2.Http() 
    credentials.authorize(http) 

    return discovery.build(
     'speech', 'v1beta1', http=http, discoveryServiceUrl=DISCOVERY_URL) 


def main(speech_file): 
    """Transcribe the given audio file. 

    Args: 
     speech_file: the name of the audio file. 
    """ 
    with open(speech_file, 'rb') as speech: 
     speech_content = base64.b64encode(speech.read()) 

    service = get_speech_service() 
    service_request = service.speech().syncrecognize(
     body={ 
      'config': { 
       'encoding': 'LINEAR16', # raw 16-bit signed LE samples 
       'sampleRate': 16000, # 16 khz 
       'languageCode': 'en-US', # a BCP-47 language tag 
      }, 
      'audio': { 
       'content': speech_content.decode('UTF-8') 
       } 
      }) 
    response = service_request.execute() 
    print(json.dumps(response)) 

if __name__ == '__main__': 
    parser = argparse.ArgumentParser() 
    parser.add_argument(
     'speech_file', help='Full path of audio file to be recognized') 
    args = parser.parse_args() 
    main(args.speech_file) 

: 63,210

संभालने सब कर, आप एक tutorial.py फ़ाइल जो बना सकते हैं

python tutorial.py audio.raw 
+1

प्रलेखन के लिए https://cloud.google.com/speech/docs/ –

+1

https://cloud.google.com/speech/docs/samples/speech-discovery_google_rest_v1.json अब एक टूटा हुआ लिंक है (404) –

+0

सटीक, धन्यवाद। आपको अभी भी एक संस्करण मिल सकता है: https://raw.githubusercontent.com/revmischa/google-transcriber/master/speech-discovery_google_rest_v1।जेसन, लेकिन "क्लाइंट लाइब्रेरी को अल्फा के रूप में रिलीज़ किया गया है और पिछड़े-असंगत तरीकों से बदल दिया जाएगा। क्लाइंट लाइब्रेरी वर्तमान में उत्पादन के उपयोग के लिए अनुशंसित नहीं हैं।", यह उत्तर जल्द ही हटा दिया जाएगा ... –

संबंधित मुद्दे