आपका दृष्टिकोण किसी भी सामान्य संगीत उदाहरण के लिए काम करेंगे नहीं, निम्नलिखित कारणों के लिए:
संगीत अपने स्वभाव से गतिशील है। मतलब यह है कि संगीत में मौजूद हर ध्वनि चुप्पी, हमले, टिकाऊ, क्षय, और फिर चुप्पी की अलग-अलग अवधि द्वारा नियंत्रित होती है, अन्यथा ध्वनि के लिफाफे के रूप में जाना जाता है।
संगीत वाद्ययंत्र नोट्स और मानव मुखर नोटों को एक स्वर द्वारा ठीक से संश्लेषित नहीं किया जा सकता है। इन नोटों को मौलिक स्वर और कई हार्मोनिक्स द्वारा संश्लेषित किया जाना चाहिए।
हालांकि, यह मौलिक स्वर और संगीत वाद्ययंत्र नोट या मुखर नोट के हार्मोनिक्स को संश्लेषित करने के लिए पर्याप्त नहीं है, किसी को उपरोक्त 1 में वर्णित नोट के लिफाफे को भी संश्लेषित करना होगा।
इसके अलावा, संगीत में एक मेलोडिक मार्ग को संश्लेषित करने के लिए, चाहे वाद्य या मुखर हो, किसी को पारित होने पर प्रत्येक नोट के लिए ऊपर 1-3 आइटम को संश्लेषित करना होगा, और किसी को शुरुआत के सापेक्ष प्रत्येक नोट के समय को भी संश्लेषित करना होगा मार्ग का
विश्लेषणात्मक रूप से अंतिम मिश्रण रिकॉर्डिंग से व्यक्तिगत उपकरणों या मानव आवाजों को निकालने में एक बहुत ही मुश्किल समस्या है, और आपका दृष्टिकोण उस समस्या को संबोधित नहीं करता है, इसलिए आपका दृष्टिकोण मुद्दों को 1-4 से ठीक से संबोधित नहीं कर सकता है।
संक्षेप में, किसी भी दृष्टिकोण है कि, सख्त विश्लेषणात्मक तरीकों का उपयोग करके एक संगीत रिकॉर्डिंग के अंतिम मिश्रण से एक के पास सही संगीत प्रतिलेखन को निकालने के लिए प्रयास करता है, पर सबसे ज्यादा लगभग निश्चित रूप से विफलता के लिए बर्बाद है, और सबसे अच्छे रूप में गिर जाता है उन्नत शोध का दायरा।
इस बाधा से आगे कैसे बढ़ें इस बात पर निर्भर करता है कि काम का उद्देश्य क्या है, ओपी ने जो कुछ भी उल्लेख नहीं किया था।
क्या यह काम किसी वाणिज्यिक उत्पाद में उपयोग किया जाएगा, या यह एक शौक परियोजना है?
यदि कोई व्यावसायिक कार्य है, तो विभिन्न आगे के दृष्टिकोण जरूरी हैं (महंगे या बहुत महंगा वाले), लेकिन उन दृष्टिकोणों का विवरण इस बात पर निर्भर करता है कि काम के लक्ष्य क्या हैं।
एक बंद टिप्पणी के रूप में, अपने संश्लेषण निम्नलिखित की वजह से यादृच्छिक बीप की तरह लगता है:
आपका मौलिक स्वर डिटेक्टर अपने रोलिंग FFT फ्रेम के समय, जो प्रभाव में एक शायद नकली मौलिक उत्पन्न करता है से जुड़ा हुआ है प्रत्येक रोलिंग एफएफटी फ्रेम के स्टार्ट-टाइम पर स्वर।
ज्ञात मौलिक स्वर शायद नकली क्यों हैं? चूंकि आप मनमाने ढंग से संगीत नमूना (एफएफटी) फ्रेम में क्लिपिंग कर रहे हैं, और इसलिए संभवतया कई मध्यवर्ती नोट्स को कई मध्यवर्ती नोट्स को छोटा कर रहे हैं, जिससे नोट्स के स्पेक्ट्रल हस्ताक्षर विकृत हो जाते हैं।
आप पाए गए नोटों के लिफाफे को संश्लेषित करने की कोशिश नहीं कर रहे हैं, न ही आप कर सकते हैं, क्योंकि आपके विश्लेषण के आधार पर लिफाफा जानकारी प्राप्त करने का कोई तरीका नहीं है।
इसलिए, संश्लेषित परिणाम शायद शुद्ध साइन चिप्स की एक श्रृंखला है, जो रोलिंग एफएफटी फ्रेम के डेल्टा-टी द्वारा समय में दूरी पर है। प्रत्येक चिंराट एक अलग आवृत्ति का हो सकता है, एक अलग लिफाफा आयाम के साथ, और लिफाफे के साथ जो शायद आकार में आयताकार हैं।
संगीत नोट की जटिल प्रकृति को देखने के लिए इन संदर्भों पर एक नज़र डालें:
Musical instrument spectra to 102.4 KHz
Musical instrument note spectra and their time-domain envelopes
विशेष कई शुद्ध टन है कि प्रत्येक नोट बनाने में ध्यान से देखें और प्रत्येक नोट के समय-डोमेन लिफाफे का जटिल आकार। एक दूसरे के सापेक्ष कई नोट्स का परिवर्तनीय समय संगीत के एक अतिरिक्त आवश्यक पहलू है, जैसा कि पॉलीफोनी (समसामयिक आवाजों को समवर्ती रूप से बजाना) है।
संगीत के इन सभी तत्व स्वायत्त संगीत प्रतिलेखन, अत्यधिक चुनौतीपूर्ण के लिए सख्त विश्लेषणात्मक दृष्टिकोण बनाने के लिए षड्यंत्र करते हैं।
आपको यह जानने में रुचि हो सकती है कि "ध्वनि के महत्वपूर्ण भाग को ढूंढने और उन हिस्सों को अनदेखा करने की आपकी मूल प्रक्रिया" (जिसे आप एफएफटी + पीक पहचान के रूप में मॉडल करते हैं) एमपी 3 एन्कोडिंग का आधार है। जाहिर है, "महत्वपूर्ण हिस्सा" का विचार बहुत प्रशंसक है। –