2010-06-03 14 views
5

मैं कुछ समस्याएं तलाश रहा हूं कि निम्नलिखित तकनीकों को हल करने के लिए मुझे कौन सी तकनीक/एल्गोरिदम खोजना चाहिए। मुझे वर्तमान में एक एल्गोरिदम मिला है जो ध्वनिक फिंगरप्रिंटिंग का उपयोग करते हुए क्लस्टर समान ध्वनि वाले एमपी 3 हैं। प्रत्येक क्लस्टर में, मेरे पास प्रत्येक फ़ाइल के लिए सभी अलग मेटाडेटा (गीत/कलाकार/एल्बम) होते हैं। उस क्लस्टर के लिए, मैं "सर्वश्रेष्ठ" गीत/कलाकार/एल्बम मेटाडेटा चुनना चाहता हूं जो मेरे डेटाबेस में मौजूदा पंक्ति से मेल खाता है, या यदि कोई सर्वश्रेष्ठ मैच नहीं है, तो एक नई पंक्ति डालने का निर्णय लें।मशीन लर्निंग एल्गोरिदम।

एक क्लस्टर के लिए, वहाँ आम तौर पर कुछ सही मेटाडेटा है, लेकिन अलग-अलग फ़ाइलों समस्याओं के कई प्रकार के होते हैं:

  • कलाकार/गीत पूरी तरह से misnamed, या बस थोड़ा गलत वर्तनी हैं
  • कलाकार/गीत/एल्बम गायब है, लेकिन शेष जानकारी
  • गीत वास्तव में एक लाइव रिकॉर्डिंग है, लेकिन क्लस्टर में केवल कुछ फाइलों को लेबल किया गया है।
  • कुछ मामलों सिर्फ फ़ाइल नाम में बहुत कम मेटाडाटा हो सकता है,, कलाकार हो सकता है - song.mp3, या कलाकार - एल्बम - song.mp3, या एक और भिन्नता

एक साधारण मतदान एल्गोरिथ्म काम करता है काफी अच्छी तरह से, लेकिन मैं कुछ ऐसा करना चाहता हूं जो मैं डेटा के एक बड़े सेट पर ट्रेन कर सकूं जो कि अभी मुझे जो मिला है उससे ज्यादा बारीकियों को उठा सकता है। कागजात या इसी तरह की परियोजनाओं के किसी भी लिंक की सराहना की जाएगी।

धन्यवाद!

+0

महान प्रश्न - मुझे यह देखने में दिलचस्पी है कि लोग यहां क्या आते हैं। मैं सोच रहा हूं कि शायद किसी तरह का निर्णय-वृक्ष सीखने का तरीका क्लस्टर में "सर्वश्रेष्ठ" गीत की पहचान करने में मदद कर सकता है? बेशक असुरक्षित शिक्षा या मशीन सीखने पर विकी पेज आपको कुछ और प्रेरणा दे सकते हैं। – awshepard

+1

यहां कुछ व्याख्यान देखने का प्रयास करें: [मशीन लर्निंग कोर्स] (https://www.coursera.org/course/ml) क्योंकि वे कई लागू तकनीकों को कवर करते हैं। – mlepage

उत्तर

2

लेवेनशेटिन दूरी दो तारों के बीच "दूरी" को मापने के लिए एक मीट्रिक है। यह वर्णों को जोड़ने/हटाने/बदलने के द्वारा एक स्ट्रिंग को दूसरे में बदलने के लिए संचालन की संख्या की गणना करता है।

आप गलत वर्तनी से निपटने में मदद के लिए इस एल्गोरिदम का उपयोग कर सकते हैं। यदि दो तार बहुत करीब हैं तो यह सबसे अधिक गलत वर्तनी है।

http://en.wikipedia.org/wiki/Levenshtein_distance

3

अगर मैं आपकी समस्या को सही ढंग से समझ, तुम, गीत विभाजित आदि, समूहों में के लिए एक मौजूदा तकनीक है और अब कि क्लस्टर की सामग्री का एक "सर्वश्रेष्ठ" उदाहरण के आधार पर चयन करना चाहते हैं जो कुछ भी परिभाषित विशेषताओं हैं।

मैं Bayesian classifiers पर एक नज़र डालेगा। ये आपके डेटा में दिए गए क्लस्टर की मुख्य परिभाषा विशेषताओं को समझने में मदद कर सकते हैं (यह मानते हुए कि क्लस्टरिंग एक स्पष्ट, अच्छी तरह से परिभाषित वर्गीकरण पर आधारित नहीं थी) साथ ही मेटाडेटा या अन्य पैरामीटर में शोर और त्रुटि के लिए कुछ सहिष्णुता प्रदान करता है। फिर आपके डेटा और क्लस्टर की प्रकृति के आधार पर, आप शायद किसी दिए गए क्लस्टर से एक या अधिक से अधिक प्रतिनिधि उदाहरण निर्धारित करने के लिए maximum likelihood या नमूनाकरण विधियों का उपयोग कर सकते हैं।

बेयसियन विधियां अनुपलब्ध डेटा को कवर करने के लिए भी उपयोगी हो सकती हैं, उदाहरण के लिए, मेटाडेटा मान अनुपलब्ध हैं। नमूना वितरण का उपयोग अन्य डेटा फ़ील्ड में ज्ञात मानों के आधार पर अनुपलब्ध डेटा के संभावित मान उत्पन्न करने के लिए किया जा सकता है।

संबंधित मुद्दे