2010-07-04 12 views
15

मैं ऑडियो के दो टुकड़ों के बीच कुछ प्रकार की दूरी माप प्राप्त करना चाहता हूं। उदाहरण के लिए, मैं जानवर की आवाज़ की तुलना उस जानवर की नकल करने के लिए एक जानवर की आवाज़ की तुलना करना चाहता हूं, और उसके बाद एक आवाज वापस आती है कि आवाज कितनी ही थी।दो ऑडियो अनुक्रमों के बीच अवधारणात्मक समानता

यह एक कठिन समस्या की तरह लगता है। इससे संपर्क करने का सबसे अच्छा तरीका क्या होगा? मैं ऑडियो सिग्नल से कुछ विशेषताओं को निकालने के बारे में सोच रहा था और फिर उन सुविधाओं पर यूक्लिडियन दूरी या कोसाइन समानता (या ऐसा कुछ) करता हूं। ध्वनियों के बीच अवधारणात्मक अंतर निर्धारित करने के लिए निकालने और उपयोगी करने के लिए किस प्रकार की विशेषताओं को आसान बनाना आसान होगा?

(मैंने देखा कि अहजम कैसे हैशिंग का उपयोग करता है, लेकिन यह एक अलग समस्या की तरह लग रहा था क्योंकि शोर के अतिरिक्त ऑडियो के दो टुकड़े बिल्कुल समान हैं। जबकि इस मामले में ऑडियो के दो टुकड़े नहीं हैं वही, वे केवल समान रूप से समान हैं)

उत्तर

3

मैं स्पेक्ट्रम विश्लेषण की तलाश करने का सुझाव दूंगा। हालांकि यह उतना आसान नहीं है जितना आप चाहते हैं, मैं उम्मीद करता हूं कि ऑडियो की अंतर्निहित आवृत्तियों में ऑडियो को विघटित करने से विश्लेषण करने के लिए कुछ उपयोगी डेटा प्रदान किए जाएंगे। यह देखें link

+0

धन्यवाद। मैं विभिन्न ध्वनियों के कुछ आवृत्ति स्पेक्ट्रम उत्पन्न करने की कोशिश कर सकता हूं और देख सकता हूं कि समान ध्वनि ध्वनि समान स्पेक्ट्रम उत्पन्न करती है, और अलग-अलग ध्वनियां नहीं होती हैं। विकिपीडिया लिंक के बारे में मुझे क्या समझता है, आवृत्ति स्पेक्ट्रम को फूरियर ट्रांसफॉर्म का उपयोग करके बनाया जाना चाहिए? – Bart

3

आपका पहला कदम निश्चित रूप से ध्वनि तरंगों के Fourier Transform (एफटी) ले जाएगा। यदि आप समय पर आवृत्ति के संबंध में डेटा पर एक एफटी निष्पादित करते हैं, तो आप तुलना करने में सक्षम होंगे कि शोर के दौरान कितनी बार नियमित आवृत्तियों को मारा जाता है।

शायद आप एक तरफ से एक तरंग घटा सकते हैं, ताकि चरणबद्ध अंतर कार्य हो सके। नकली शोर मानते हुए एक ही आवृत्ति और पिच रुझान मूल शोर के रूप में मानते हैं, तो आप अंतर समारोह के बिंदुओं के लिए सर्वोत्तम फिट की रेखा की गणना कर सकते हैं। मूल ध्वनि तरंग से ली गई सर्वोत्तम फिट की एक पंक्ति के खिलाफ सर्वश्रेष्ठ फिट लाइन की तुलना करके, आप तुलना के आधार के रूप में उपयोग करने के लिए एक ट्रेंड लाइन औसत कर सकते हैं। अनुमोदित, यह एक बहुत ढीली तुलना विधि होगी।

- 1. एचजे/एमएस, शायद? मैं यहां काम कर रहे यूनिट परिमाण से परिचित नहीं हूं, मैं आम तौर पर नैनो-रेंज में काम करता हूं।

- 2. इतने लंबे समय तक और इसके लिए; Δ टी, Δ पिच/Δ टी & Δ आवृत्ति/Δ टी कुछ सहिष्णुता एक्स के भीतर हैं।

- फ़ॉर्मेटिंग के लिए संपादित किया गया, और क्योंकि मैं वास्तव में पूर्ण उत्तर लिखना समाप्त करना भूल गया था।

+0

क्या आप एक फ्रीक्वेंसी स्पेक्ट्रम उत्पन्न करना चाहते हैं? जब आप इसे संरेखण ध्वनियों लहर के खिलाफ लेते हैं तो अंतर फंक्शन की रेखा केवल 0 नहीं होगी? – Bart

+0

हां, मेरा मतलब है आवृत्ति स्पेक्ट्रम उत्पन्न करना। इतने सारे शब्दों में। :) यदि तुलना की जा रही सर्वोत्तम फिट की रेखा दो ध्वनि तरंगों के औसत से आधारित थी, नहीं, मुझे विश्वास नहीं है कि यह सिर्फ 0 होगा। हालांकि गलत हो सकता है! – Andy

8

समानता के लिए लगता है की एक सेट की तुलना के लिए प्रक्रिया कंप्यूटर विज्ञान अनुसंधान के क्षेत्र में सामग्री आधारित ऑडियो Indexing, Retrieval, और Fingerprinting कहा जाता है।

ऐसा करने का एक तरीका यह भी है: इस तरह के समय के साथ पिच, आवृत्ति स्पेक्ट्रम, ऑटो सहसंबंध, गतिशील रेंज, यात्रियों, आदि जैसी सुविधाओं को निकालने के लिए प्रत्येक ऑडियो फ़ाइल पर सिग्नल प्रोसेसिंग के

  1. भागो कई बिट्स ।

  2. एक बहु-आयामी सरणी में प्रत्येक ऑडियो फ़ाइल के लिए सभी सुविधाओं रखो और

  3. उपयोग अनुकूलन तकनीकों एक डेटाबेस में प्रत्येक बहु-आयामी सरणी डंप (जैसे gradient descent के रूप में) एक दिया के लिए सबसे अच्छा मैच खोजने के लिए बहु-आयामी डेटा के आपके डेटाबेस में ऑडियो फ़ाइल।

यह काम अच्छी तरह से बनाने के लिए चाल जो लेने के लिए गई है। इसे स्वचालित रूप से करना और अच्छे परिणाम प्राप्त करना मुश्किल हो सकता है। Pandora पर लोग यह वास्तव में अच्छा करते हैं, और मेरी राय में उनके पास सबसे अच्छी समानता है। हालांकि, वे संगीत सुनने और उन्हें कई अलग-अलग तरीकों से रेट करके, अपने वैक्टरों को हाथ से एन्कोड करते हैं। अधिक जानकारी के लिए उनके Music Genome Project और List of Music Genome Project attributes देखें।

स्वचालित दूरी माप के लिए, ऐसी कई परियोजनाएं हैं जो इस तरह की चीजें करती हैं, जिनमें marsysas, MusicBrainz, और EchoNest शामिल हैं।

ईकोनेस्ट में simplest APIs में से एक है जो मैंने इस जगह में देखा है। शुरू करना बहुत आसान है।

संबंधित मुद्दे