2011-09-05 9 views
16

मेरे पास एक ऑडियो फ़ाइल है (2 लोगों की रिकॉर्ड की गई टेलीफोन बातचीत)। मुझे स्वचालित रूप से 2 स्पीकर की आवाजों को अलग करने की आवश्यकता है। मैं भाषण मान्यता के लिए नया हूं और मैंने अजगर के तरंग मॉड्यूल को देखा लेकिन किसी भी उपयोगी जानकारी को खोजने में असफल रहा।पायथन स्पीकर पहचान

कृपया शुरू करने में सहायता करें। कृपया मुझे मुफ्त पायथन पुस्तकालयों का सुझाव दें जो मुझे समस्या को हल करने में मदद करेंगे।

उत्तर

4

numpy के साथ शुरू करें, और मैं ऑडियो रिकॉर्डिंग में विभिन्न आवाजों को अलग करने के लिए एक अच्छी विधि के रूप में स्पेक्ट्रोग्राफ (मूल रूप से एक रोलिंग एफएफटी) देखेंगे।

यहाँ Matplotlib में spectrogram समारोह है:

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

मैं Python(x,y) सिफारिश करेंगे अगर आप सिर्फ एक Windows मंच पर पहली बार कर रहे।

0

सीएमयू स्फिंक्स पायथन पुस्तकालय पर एक नज़र डालें। यह जावा में विकसित किया गया है, इसलिए मुझे लगता है कि पाइथन libs सिर्फ इसके लिए रैपर हैं। इस परियोजना के पीछे बहुत सारे चल रहे शोध हैं।

सरकारी विकि: http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python

13

जुदाई का कार्य वक्ताओं का भाषण मान्यता कार्य नहीं है, यह एक स्पीकर मान्यता कार्य है। भाषण कम्युनिटी में इस कार्य को स्पीकर डायराइजेशन के रूप में भी जाना जाता है। वहाँ वक्ता diarization और वक्ता मान्यता के लिए कई संकुल अजगर के लिए उपलब्ध हैं:

:

SIDEKIT from LIUM

Bob toolkit from Idiap

Speaker diarization from ISCI

मामले में आप अजगर लिए सीमित नहीं हैं, वहाँ दूसरों रहे हैं LIUM speaker diarization

Speaker recognition setup in Kaldi। कला डीएनएन-आधारित i-vectors की स्थिति शामिल है।

संबंधित मुद्दे