का पाइथन कार्यान्वयन मेरे पास एक डेटाबेस है जिसमें एक वीडियो स्ट्रीमिंग है। मैं छवियों और एमएफसीसी ऑडियो से एलबीपी सुविधाओं की गणना करना चाहता हूं और वीडियो में प्रत्येक फ्रेम के लिए मुझे कुछ एनोटेशन है। एनोटेशन वीडियो फ्रेम और वीडियो के समय के साथ रेखांकित है। इस प्रकार, मैं उस समय को मैप करना चाहता हूं जो मेरे पास एनोटेशन से एमएफसीसी के परिणाम तक है। मुझे पता है कि sample_rate = 44100एमएफसीसी एल्गोरिदम
from python_speech_features import mfcc
from python_speech_features import logfbank
import scipy.io.wavfile as wav
audio_file = "sample.wav"
(rate,sig) = wav.read(audio_file)
mfcc_feat = mfcc(sig,rate)
print len(sig) //2130912
print len(mfcc_feat) // 4831
सबसे पहले, क्यों MFCC की लंबाई का परिणाम 4831 और कैसे मैप करने के लिए है कि एनोटेशन मैं सेकंड में है में है? वीडियो की कुल अवधि 48 सेकंड है। और वीडियो की एनोटेशन 1 9-9सीसी खिड़कियों को छोड़कर हर जगह 0 है जहां 1 है। मैं mfcc के परिणामों से विंडो के अंदर नमूने कैसे ढूंढ सकता हूं (1 9 -29)?
बस एक टिप्पणी है: Librosa विभिन्न सुविधा निष्कर्षण तरीकों है। यह आपके काम में मदद कर सकता है। https://github.com/librosa/librosa/blob/master/examples/LibROSA%20demo.ipynb – dkato