8

से गैर-भाषण, गैर-संगीत ध्वनि की रीयल-टाइम पहचान, मैं एक विशेष ध्वनि, जैसे कार दरवाजा स्लैमिंग, या शायद एक टोस्टर निकालने टोस्ट के अनुरूप घटनाओं को लॉग करना चाहता हूं।निरंतर माइक्रोफ़ोन स्ट्रीम

सिस्टम को "जोरदार शोर डिटेक्टर" से अधिक परिष्कृत होना चाहिए; इसे अन्य जोरदार शोर से उस विशिष्ट ध्वनि को अलग करने में सक्षम होना चाहिए।

पहचान शून्य-विलंबता की आवश्यकता नहीं है, लेकिन प्रोसेसर को हमेशा माइक्रोफ़ोन से आने वाले डेटा की निरंतर स्ट्रीम के साथ बनाए रखने की आवश्यकता होती है।

  • इस कार्य में काफी भाषण मान्यता व्यवस्था से अलग है, या मैं भाषण मान्यता पुस्तकालयों/उपकरणकिटें का उपयोग कर सकता इन गैर भाषण ध्वनियों की पहचान के लिए?
  • आवश्यकता को देखते हुए मुझे केवल एक ध्वनि से मिलान करने की आवश्यकता है (ध्वनि की लाइब्रेरी के बीच मिलान करने के विपरीत), क्या कोई विशेष अनुकूलन मैं कर सकता हूं?

This answer इंगित करता है कि एक मिलान किया फिल्टर उपयुक्त होगा, लेकिन मैं विवरण पर धुंधला कर रहा हूँ। मुझे विश्वास नहीं है कि लक्ष्य ध्वनि में बदलाव के कारण लक्ष्य ध्वनि के नमूने के बीच ऑडियो तरंग डेटा पर एक सरल क्रॉस-सहसंबंध और माइक्रोफ़ोन स्ट्रीम प्रभावी होगी।

मेरा प्रश्न this के समान भी है, जिस पर अधिक ध्यान नहीं दिया गया।

+0

से संबंधित आप http://dsp.stackexchange.com पर बेहतर किस्मत से अधिक हो सकता है के रूप में मान्यता प्राप्त है। – mtrw

उत्तर

3

यह डॉक्टरेट थीसिस, Non-Speech Environmental Sound Classification System for Autonomous Surveillance, काउलिंग (2004) द्वारा, ऑडियो फीचर निष्कर्षण के साथ-साथ वर्गीकरण के लिए विभिन्न तकनीकों पर प्रयोगात्मक परिणाम हैं। उन्होंने कहा कि इस तरह के jangling कुंजी और नक्शेकदम के रूप में पर्यावरण ध्वनियों का उपयोग करता है, और 70% की सटीकता को प्राप्त करने में सक्षम था:

सबसे अच्छी तकनीक या तो सतत तरंगिका गतिशील समय Warping या मेल-आवृत्ति के साथ सुविधा निष्कर्षण रूपांतरण पाई जाती है सेप्स्ट्रल गतिशील समय वारिंग के साथ गुणांक। इन दोनों तकनीकों 70% मान्यता दर प्राप्त करते हैं।

यदि आप स्वयं को एक ध्वनि तक सीमित करते हैं, तो शायद आप उच्च मान्यता दर प्राप्त करने में सक्षम हो सकते हैं?

लेखक यह भी उल्लेख करता है कि भाषण मान्यता (सीखने वाले वेक्टर क्वांटिज़ेशन और तंत्रिका नेटवर्क) के साथ काफी अच्छी तरह से काम करने वाली तकनीकें पर्यावरणीय ध्वनियों के साथ बहुत अच्छी तरह से काम नहीं करती हैं।

मुझे यहां एक और हालिया आलेख भी मिला है: Detecting Audio Events for Semantic Video Search, बुगालो एट अल द्वारा। (200 9), जहां वे फिल्मों में ध्वनि घटनाओं का पता लगाते हैं (जैसे बंदूक शॉट्स, विस्फोट, आदि)।

मुझे इस क्षेत्र में कोई अनुभव नहीं है। मैंने आपकी रुचि को पिक्चर करने के आपके प्रश्न के परिणामस्वरूप इस सामग्री पर केवल ठोकर खाई है। मैं आशा करता हूं कि यह आपके शोध के साथ मदद करता है।

+0

लिंक टूटा हुआ है। – AJMansfield

+0

@AJMansfield लेखों के वैकल्पिक लिंक मिला। –

3

मैं विषय

  • Vehicle Sound Signature Recognition by Frequency Vector Principal Component Analysis Huadong वू, मेल सीगल, और प्रदीप खोसला (इंस्ट्रूमेंटेशन और मापन पर आईईईई लेनदेन, वॉल्यूम। 48, द्वारा पर एक दिलचस्प कागज पाया नहीं।5, अक्टूबर 1 999 )

वाहन वाहनों की तुलना में बेहतर नहीं होने पर, यह आपके आवेदन के लिए भी काम करना चाहिए।

जब प्रशिक्षण डेटा का विश्लेषण, यह ...

  1. 200 मि.से
  2. के नमूने एक फूरियर प्रत्येक नमूने पर (FFT) रूपांतरण है
  3. आवृत्ति वैक्टर पर एक Principal Component Analysis करता है लेता है

    • इस कक्षा के सभी नमूने के माध्य की गणना करता है
    • सबट्रैक नमूने
    • से मतलब ts की गणना करता है मतलब सहप्रसरण मैट्रिक्स के eigen-वैक्टर
    • स्टोर मतलब है और इसकी प्रमुख eigen-वैक्टर (के साथ ही बाहरी प्रत्येक वेक्टर के उत्पादों के मतलब)।

फिर एक ध्वनि वर्गीकृत करने के लिए है, यह ...

  1. 200 मि.से (एस) के नमूने ले जाता है।
  2. क्या प्रत्येक नमूने पर एक फूरियर ट्रांसफॉर्म करता है।
  3. आवृत्ति वेक्टर (एफ) से कक्षा (सी) के माध्य को घटाता है।
  4. सी के प्रत्येक ईजिन-वेक्टर के साथ आवृत्ति वेक्टर को बढ़ाता है, प्रत्येक से एक संख्या देता है।
  5. प्रत्येक संख्या के उत्पाद को घटाता है और एफ
  6. से संबंधित ईजिन-वेक्टर परिणामस्वरूप वेक्टर की लंबाई लेता है।
  7. यह मान कुछ निरंतर कम है, तो एस वर्ग सी
संबंधित मुद्दे