2009-10-27 14 views
9

मैं साथ Computer Vision परिचित हूँ, जिनमें से एक आवेदन छवि मान्यता हो सकता है (खैर, यह के बारे में पता),, इस तरह के Optical Character Recognition के रूप में, मुझे विश्वास है। हालांकि, जो कुछ मैं ज्यादा दिलचस्पी लेता हूं वह 'कंप्यूटर सुनना' है, जिसे मैंने अभी सीखा है उसे Digital Signal Processing माना जाता है।प्रोग्राम 'सुनना' ध्वनि करने के लिए (सिग्नल प्रोसेसिंग?)

जो चीज मुझे सिग्नल प्रोसेसिंग के बारे में सबसे ज्यादा रूचि देती है वह संगीत में संभावित अनुप्रयोग है। मुझे कुछ समय पहले याद आया मैंने एक आवेदन का पूर्वावलोकन देखा (क्षमा करें, नाम नाम भूल गया) जो गिटार बजाने वाले किसी की रिकॉर्डिंग सुन सकता है, और वास्तविक नोट्स/तारों के साथ स्वचालित रूप से इसे समय-समय पर ग्राफ कर सकता है खेला गया था। कार्यक्रम का उपयोग करके, उपयोगकर्ता इन चारों ओर स्थानांतरित करने और उन्हें संपादित करने में सक्षम था। अब, जाहिर है यह बहुत जटिल है, लेकिन क्या इसमें एक ही चीज़ शामिल है? संकेत प्रसंस्करण? मुझे संगीत विज़ुअलाइज़र और बुद्धिमान प्रकाश प्रणालियों में संभावित अनुप्रयोगों में भी रूचि है।

मेरी समझ यह है कि एमपी 3 के रूप में एक संपीड़ित ऑडियो प्रारूप पर इस प्रसंस्करण को एमआईडीआई के समान परिणाम नहीं मिलते हैं जिसमें अलग-अलग ट्रैक होते हैं (शायद मुझे गलत समझा जाता है)। पीसीएम जैसे असंपीड़ित प्रारूप एमपी 3 से बेहतर होगा? मुझे ध्वनि प्रसंस्करण के बारे में कुछ भी पता नहीं है, यही वह है जो मैंने अभी तक जो पढ़ा है उससे मैं क्या कह रहा हूं।

मैंने पहले से ही this question देखा है जिसमें मेरे कई प्रश्नों को शामिल करने वाले महान उत्तर और लिंक हैं। हालांकि, मुझे मिले अधिकांश लिंक सैद्धांतिक हैं, जो मुझे यकीन है कि यह सभी दिलचस्प है और इस विषय में मेरी दिलचस्पी के बारे में निश्चित रूप से पढ़ने के लायक है, लेकिन मैं जानना चाहता था कि कोई मौजूदा पुस्तकालय है जो इसे सुविधाजनक बना सकता है, या इस विषय से संबंधित आलेख जो कि कंप्यूटर साइंस/प्रोग्रामिंग की तरफ बढ़े हैं, शायद उदाहरण कोड के साथ। यहां तक ​​कि ओपन सोर्स ध्वनि/संगीत विज़ुअलाइज़र या कोई अन्य ओपन सोर्स ध्वनि प्रसंस्करण कोड भी अच्छा होगा।

क्षमा करें अगर मुझे कोई समझ नहीं आया। जैसे मैंने कहा, मुझे नहीं पता कि मैं किस बारे में बात कर रहा हूं।

उत्तर

13

बात मुझे सबसे रुचिकर सिग्नल प्रोसेसिंग के बारे में संगीत में संभावित आवेदन है। थोड़ी देर मुझे याद है पहले मैं एक आवेदन के एक पूर्वावलोकन देखा

शायद cubase (क्षमा करें, नाम भूल गया)?

किसी एक गिटार बजा की रिकॉर्डिंग के लिए सुनो सकता है, और स्वतः ही वास्तविक नोट/chords कि

गहराई सरलीकृत खेले जाते थे के साथ एक समय-रेखा के पार बाहर का ग्राफ़, जब आप एक नोट खेलते हैं तो आप एक आवधिक आवृत्ति के साथ एक आवधिक लहर उत्पन्न करते हैं। एक गणितीय चाल (फूरियर ट्रांसफॉर्म डीएफटी) है जो तरंग को स्पेक्ट्रम में परिवर्तित करती है, जो समय के प्रति तीव्रता पेश करने की बजाय, यह लहर की आवृत्ति के खिलाफ दिखाती है। उदाहरण के लिए, ट्यूनिंग फोर्क से एक परिपूर्ण ए नोट 440 हर्ट्ज पर एक ऑसीलेटरिंग लहर उत्पन्न करेगा। उस समय डोमेन में यह एक साइनसॉइडल तरंग के रूप में दिखाई देगा। आवृत्ति डोमेन में, यह 440 हर्ट्ज पर केंद्रित एकल, संकीर्ण स्पाइक के रूप में दिखाई देगा।

अब, जब आप गिटार बजाते हैं तो आप सही साइनसॉइडल तरंगें नहीं बनाते हैं। ए को मारना मौलिक आवृत्ति, 440 हर्ट्ज का उत्पादन करेगा, लेकिन स्पंदनात्मक स्ट्रिंग के भौतिकी के कारण, कई अतिरिक्त आवृत्तियों (जैसे 880, ऑक्टेट उच्च पर, लेकिन कई अन्य उच्च और निचले freqs भी), सामग्री और गिटार इत्यादि का आकार .. इन अतिरिक्त आवृत्तियों को हार्मोनिक्स कहा जाता है, और वे "गिटार की आवाज़" उत्पन्न करने के लिए मौलिक के साथ मिश्रण करते हैं (संगीत शब्दकोष में timbre कहा जाता है)। एक अलग उपकरण (पियानो कहें) में मौलिक के साथ हार्मोनिक्स के विभिन्न मिश्रण होंगे, एक अलग timbre उत्पादन।

प्रवेश संकेत पर डीएफटी करने के लिए डीएसपी कार्यक्रम क्या करते हैं। अतिरिक्त चाल के साथ, उन्हें मौलिक और हार्मोनिक्स मिलते हैं, और जो कुछ वे पाते हैं, उनके अनुसार वे आपके द्वारा खेले गए नोट का अनुमान लगाते हैं। यह तेजी से होना चाहिए, क्योंकि आप लाइव खेलने और विशेष चाल ट्रिगर करते समय नोट पा सकते हैं। उदाहरण के लिए, आप गिटार पर एक ए नोट दबा सकते हैं, डीएसपी समझता है कि यह ए है और इसे पियानो से ए के साथ बदल देता है, इसलिए वक्ताओं से आपको पियानो की आवाज मिलती है।

कार्यक्रम का उपयोग करना, उपयोगकर्ता सक्षम इन चारों ओर ले जाने और यहां तक ​​कि उन्हें संपादित किया गया था। अब, जाहिर है यह बहुत अधिक जटिल है, लेकिन क्या इसमें एक ही चीज़ शामिल है? संकेत प्रसंस्करण? मैं में संगीत दृश्यकों में अनुप्रयोगों और बुद्धिमान प्रकाश प्रणालियों में भी रुचि रखते हैं।

हां। एक बार जब आप फ्रीक्वेंसी डोमेन में हों, तो चीजें बहुत आसान हो जाती हैं। उदाहरण के लिए, आप आवाज़ आवृत्तियों के अनुसार एक विशिष्ट प्रकाश को प्रकाश डाल सकते हैं, और बास ड्रम के साथ एक और प्रकाश।

मेरे समझ है कि इस तरह के रूप में एमपी 3 एक संपीड़ित ऑडियो प्रारूप पर इस प्रसंस्करण कर अभ्यस्त जो अलग ट्रैक (शायद मैं गलत समझा) शामिल हैं एक ही परिणाम मिडी के रूप में उपज है।

वे दो अलग-अलग चीजें हैं। एमपी 3 एक ध्वनि तरंग से संकुचित प्रारूप है। असल में यह वक्ताओं को पायलट करता है, और इसे संपीड़ित करता है। विचार वही है: डीएफटी, फिर सामानों को हटाने की संभावना नहीं है (उदाहरण के लिए, एक उच्च पिच जो उच्च तीव्रता ध्वनि के बाद आता है, सुनने की संभावना कम होती है, इसलिए इसे हटा दिया जाता है)।

दूसरी तरफ MIDI घटनाओं की एक स्क्रॉल है (आप जानते हैं, दूर पश्चिम में उन पियानो की तरह, रोलिंग पेपर स्क्रॉल के साथ)। फ़ाइल में कोई संगीत नहीं है। इसमें विशिष्ट उपकरणों के साथ विशिष्ट समय पर विशिष्ट नोट्स करने के लिए MIDI प्लेयर के लिए दिशानिर्देश शामिल हैं। "वाद्ययंत्र बैंक" की गुणवत्ता (अन्य चीजों के साथ) एक अच्छा मिडी प्लेयर (जो कि विशेष रूप से पियानो और वायलिन के लिए, यथार्थवादी लगता है) से एक खराब मिडी प्लेयर (जो कि एक बच्चे के खिलौने की तरह लगता है) में अंतर करता है, मैं अभी भी हवा के उपकरणों के लिए एक यथार्थवादी सुनना है)।

यह एमआईडीआई से एमपी 3 तक जा रहा है, आप बस मिडी प्लेयर के माध्यम से प्रदर्शन करते हैं। दूसरी तरफ करने के लिए एक अलग कहानी पूरी तरह से है, और बहुत अधिक जटिल है, और यहां वह जगह है जहां डीएसपी खेल में आता है, जैसा आपने कहा था।

यह एक फिस्क टैंक उबलने जैसा है। आपको एक मछली सूप मिलता है। लेकिन मछली के सूप से वापस मछली टैंक तक पहुंचने के लिए, यह बहुत कठिन है।

क्या एक असम्पीडित पीसीएम जैसे प्रारूप एमपी 3 से बेहतर होगा?

पीसीएम डिजिटल सिग्नल में एनालॉग सिग्नल को परिवर्तित करने की तकनीक है। तो आपके प्रश्न में एक मौलिक गलतफहमी है, कि कोई पीसीएम प्रारूप मौजूद नहीं है (रॉ प्रारूप एक करीबी कॉल है, मूल रूप से कच्चे डेटा के अलावा कुछ भी नहीं)। यदि आप पूछते हैं कि एक असम्पीडित डब्ल्यूएवी (जिसमें पीसीएम डेटा शामिल है) एमपी 3 से बेहतर है, तो हाँ, लेकिन सवाल कभी-कभी यह है कि मानव कान के लिए यह वास्तव में कितना महत्वपूर्ण है, और उस डेटा पर आपको कितना पोस्टप्रोसेसिंग करना है।

पता अगर कोई मौजूदा पुस्तकालयों जो शायद उदाहरण कोड के साथ इस, या इस विषय कि कंप्यूटर विज्ञान/प्रोग्रामिंग की दिशा में सक्षम से संबंधित लेख की सुविधा कर सकते हैं। यहां तक ​​कि ओपन सोर्स ध्वनि/संगीत विज़ुअलाइज़र या कोई अन्य ओपन सोर्स ध्वनि प्रसंस्करण कोड बहुत अच्छा होगा।

अजगर की तरह आप हैं, तो take a look at this page

क्षमा करें यदि मैं कोई मतलब नहीं था। जैसे मैंने कहा, मुझे नहीं पता कि मैं किस बारे में बात कर रहा हूं।

न तो मैं करता हूं, लेकिन मैंने इसके साथ थोड़ा खिलौना किया।

+0

मुझे लगता है कि आपका मतलब है कि टम्ब्रो नहीं, टिम्बरो –

+2

इतालवी में यह टिंब्रो है, और संगीतकार अक्सर इतालवी नोटेशन का उपयोग करते हैं। फिक्सिंग। –

+0

दिलचस्प, धन्यवाद। मछली टैंक/मछली सूप चीज के लिए –

6

मेरे समझ है कि इस तरह एमपी 3 के रूप में एक संकुचित ऑडियो प्रारूप पर इस प्रसंस्करण कर अभ्यस्त एक ही परिणाम के रूप में मिडी जो अलग ट्रैक शामिल हैं (शायद मैं गलत समझा) है।

MIDI अनिवार्य रूप से उपकरण की जानकारी और संगीत नोट्स संग्रहीत करता है। इसके अलावा अन्य प्रभाव (वॉल्यूम, पिच मोड़, कंपन, हमला दर, आदि)

वास्तव में डिजिटल सिग्नल प्रोसेसिंग नहीं।

पीसीएम जैसे असंपीड़ित प्रारूप एमपी 3 से बेहतर होगा?

शायद कुछ हद तक; यह आवेदन पर निर्भर करता है। एमपी 3 आवृत्तियों की सटीकता को कम करता है कि इंसान संवेदनशील नहीं हैं। यदि आप विज़ुअलाइज़ेशन करना चाहते हैं तो एमपी 3 शायद ठीक है।

लेकिन यदि आप यह कहना चाहते हैं कि रिकॉर्डिंग में किस तरह का वाद्य यंत्र बज रहा है, तो उन आवृत्तियों में छिपी हुई उपयोगी जानकारी हो सकती है जो मनुष्य संवेदनशील नहीं हैं।

मुझे लगता है कि The Scientist and Engineer's Guide to Digital Signal Processingमहान प्रोग्रामर के लिए संदर्भ है।अध्याय 8 असतत फूरियर ट्रांसफॉर्म (एमपी 3 प्रसंस्करण में उपयोग किया जाता है और कई अन्य जगहों को तरंग के घटक आवृत्तियों को अलग करने के लिए बताता है)।

मैंने इसे एक ग्राफिकल प्रोग्राम बनाने में मदद करने के लिए उपयोग किया जो आपको माउस के साथ एक लहर खींचने देता है, फिर डीएफटी लागू करता है, और आपको यह चुनने देता है कि कितनी आवृत्तियों को शामिल करना है। यह एक अच्छा अभ्यास था।

0

मुझे लगता है कि आपको वही परिभाषित करने की ज़रूरत है जो आप खोज रहे हैं और आप क्या करने की कोशिश कर रहे हैं।

यदि आप DSP, MIDI या PCM के बारे में जानना चाहते हैं तो विकिपीडिया और संदर्भों पर बहुत सारी जानकारी है।

ऑडियो मैनिपुलेशन के लिए कई सारे अनुप्रयोग उपलब्ध हैं। आपके प्रश्न में आपने जो वर्णन किया है वह हर डिजिटल रिकॉर्डिंग स्टूडियो (जो इन दिनों लगभग सभी स्टूडियो के लिए खाता होगा) में होता है।

यदि आप कुछ डीएसपी प्रदर्शन करने का इरादा रखते हैं, तो एक गिटार ध्वनि कहें तो आप आदर्श रूप से गिटार की रिकॉर्डिंग करेंगे (ड्रम या वोकल्स युक्त मिश्रित ट्रैक के बजाय)। यह स्पष्ट रूप से होना चाहिए कि आपको 'शोर' के महत्वपूर्ण स्तर वाले सिग्नल का विश्लेषण करने से अतिरिक्त शोर के बिना एक अलग सिग्नल का विश्लेषण करने के बेहतर परिणाम मिलेंगे। तो हाँ, एक मल्टीट्रैक रिकॉर्डिंग 'एमपी 3' के लिए बेहतर होगी।

विशिष्ट एमपी 3 में बाएं और दाएं चैनल (ट्रैक) होते हैं, इसलिए यह तकनीकी रूप से मल्टीट्रैक है। जब संगीत रिकॉर्ड किया जाता है (पेशेवर रूप से, कम से कम) विभिन्न संकेतों पर विभिन्न संकेतों को रिकॉर्ड किया जाता है, ठीक उसी प्रकार ताकि उन्हें बाद में संपादित और संक्रमित रूप से संसाधित किया जा सके।

क्या आप ध्वनियों के साथ क्या करना चाहते हैं?

जैसा कि अन्य उत्तरों ने इंगित किया है, यह MIDI से बिल्कुल संबंधित नहीं है।

1

मुझे कुछ समय पहले याद आया कि मैंने एक एप्लिकेशन का पूर्वावलोकन देखा (क्षमा करें, नाम भूल गया) जो गिटार बजाने वाले किसी की रिकॉर्डिंग सुन सकता है, और स्वचालित रूप से वास्तविक समय के साथ इसे समय-समय पर ग्राफ कर सकता है नोट्स/chords जो खेला गया था।

तुम भी Melodyne की सोच रहे होंगे: Cubase के नए संस्करण में http://www.celemony.com/cms/

हालांकि वारी ऑडियो बहुत समान है। :)

संबंधित मुद्दे