मैं कुछ समस्याएं तलाश रहा हूं कि निम्नलिखित तकनीकों को हल करने के लिए मुझे कौन सी तकनीक/एल्गोरिदम खोजना चाहिए। मुझे वर्तमान में एक एल्गोरिदम मिला है जो ध्वनिक फिंगरप्रिंटिंग का उपयोग करते हुए क्लस्टर समान ध्वनि वाले एमपी 3 हैं। प्रत्येक क्लस्टर में, मेरे पास प्रत्येक फ़ाइल के लिए सभी अलग मेटाडेटा (गीत/कलाकार/एल्बम) होते हैं। उस क्लस्टर के लिए, मैं "सर्वश्रेष्ठ" गीत/कलाकार/एल्बम मेटाडेटा चुनना चाहता हूं जो मेरे डेटाबेस में मौजूदा पंक्ति से मेल खाता है, या यदि कोई सर्वश्रेष्ठ मैच नहीं है, तो एक नई पंक्ति डालने का निर्णय लें।मशीन लर्निंग एल्गोरिदम।
एक क्लस्टर के लिए, वहाँ आम तौर पर कुछ सही मेटाडेटा है, लेकिन अलग-अलग फ़ाइलों समस्याओं के कई प्रकार के होते हैं:
- कलाकार/गीत पूरी तरह से misnamed, या बस थोड़ा गलत वर्तनी हैं
- कलाकार/गीत/एल्बम गायब है, लेकिन शेष जानकारी
- गीत वास्तव में एक लाइव रिकॉर्डिंग है, लेकिन क्लस्टर में केवल कुछ फाइलों को लेबल किया गया है।
- कुछ मामलों सिर्फ फ़ाइल नाम में बहुत कम मेटाडाटा हो सकता है,, कलाकार हो सकता है - song.mp3, या कलाकार - एल्बम - song.mp3, या एक और भिन्नता
एक साधारण मतदान एल्गोरिथ्म काम करता है काफी अच्छी तरह से, लेकिन मैं कुछ ऐसा करना चाहता हूं जो मैं डेटा के एक बड़े सेट पर ट्रेन कर सकूं जो कि अभी मुझे जो मिला है उससे ज्यादा बारीकियों को उठा सकता है। कागजात या इसी तरह की परियोजनाओं के किसी भी लिंक की सराहना की जाएगी।
धन्यवाद!
महान प्रश्न - मुझे यह देखने में दिलचस्पी है कि लोग यहां क्या आते हैं। मैं सोच रहा हूं कि शायद किसी तरह का निर्णय-वृक्ष सीखने का तरीका क्लस्टर में "सर्वश्रेष्ठ" गीत की पहचान करने में मदद कर सकता है? बेशक असुरक्षित शिक्षा या मशीन सीखने पर विकी पेज आपको कुछ और प्रेरणा दे सकते हैं। – awshepard
यहां कुछ व्याख्यान देखने का प्रयास करें: [मशीन लर्निंग कोर्स] (https://www.coursera.org/course/ml) क्योंकि वे कई लागू तकनीकों को कवर करते हैं। – mlepage