मशीन लर्निंग एल्गोरिदम।

मैं कुछ समस्याएं तलाश रहा हूं कि निम्नलिखित तकनीकों को हल करने के लिए मुझे कौन सी तकनीक/एल्गोरिदम खोजना चाहिए। मुझे वर्तमान में एक एल्गोरिदम मिला है जो ध्वनिक फिंगरप्रिंटिंग का उपयोग करते हुए क्लस्टर समान ध्वनि वाले एमपी 3 हैं। प्रत्येक क्लस्टर में, मेरे पास प्रत्येक फ़ाइल के लिए सभी अलग मेटाडेटा (गीत/कलाकार/एल्बम) होते हैं। उस क्लस्टर के लिए, मैं "सर्वश्रेष्ठ" गीत/कलाकार/एल्बम मेटाडेटा चुनना चाहता हूं जो मेरे डेटाबेस में मौजूदा पंक्ति से मेल खाता है, या यदि कोई सर्वश्रेष्ठ मैच नहीं है, तो एक नई पंक्ति डालने का निर्णय लें।मशीन लर्निंग एल्गोरिदम।

एक क्लस्टर के लिए, वहाँ आम तौर पर कुछ सही मेटाडेटा है, लेकिन अलग-अलग फ़ाइलों समस्याओं के कई प्रकार के होते हैं:

कलाकार/गीत पूरी तरह से misnamed, या बस थोड़ा गलत वर्तनी हैं
कलाकार/गीत/एल्बम गायब है, लेकिन शेष जानकारी
गीत वास्तव में एक लाइव रिकॉर्डिंग है, लेकिन क्लस्टर में केवल कुछ फाइलों को लेबल किया गया है।
कुछ मामलों सिर्फ फ़ाइल नाम में बहुत कम मेटाडाटा हो सकता है,, कलाकार हो सकता है - song.mp3, या कलाकार - एल्बम - song.mp3, या एक और भिन्नता

एक साधारण मतदान एल्गोरिथ्म काम करता है काफी अच्छी तरह से, लेकिन मैं कुछ ऐसा करना चाहता हूं जो मैं डेटा के एक बड़े सेट पर ट्रेन कर सकूं जो कि अभी मुझे जो मिला है उससे ज्यादा बारीकियों को उठा सकता है। कागजात या इसी तरह की परियोजनाओं के किसी भी लिंक की सराहना की जाएगी।

धन्यवाद!

स्रोत

2010-06-03 twk

महान प्रश्न - मुझे यह देखने में दिलचस्पी है कि लोग यहां क्या आते हैं। मैं सोच रहा हूं कि शायद किसी तरह का निर्णय-वृक्ष सीखने का तरीका क्लस्टर में "सर्वश्रेष्ठ" गीत की पहचान करने में मदद कर सकता है? बेशक असुरक्षित शिक्षा या मशीन सीखने पर विकी पेज आपको कुछ और प्रेरणा दे सकते हैं। – awshepard

यहां कुछ व्याख्यान देखने का प्रयास करें: [मशीन लर्निंग कोर्स] (https://www.coursera.org/course/ml) क्योंकि वे कई लागू तकनीकों को कवर करते हैं। – mlepage

लेवेनशेटिन दूरी दो तारों के बीच "दूरी" को मापने के लिए एक मीट्रिक है। यह वर्णों को जोड़ने/हटाने/बदलने के द्वारा एक स्ट्रिंग को दूसरे में बदलने के लिए संचालन की संख्या की गणना करता है।

आप गलत वर्तनी से निपटने में मदद के लिए इस एल्गोरिदम का उपयोग कर सकते हैं। यदि दो तार बहुत करीब हैं तो यह सबसे अधिक गलत वर्तनी है।

http://en.wikipedia.org/wiki/Levenshtein_distance

स्रोत

2010-06-03 16:09:48 Tansir1

अगर मैं आपकी समस्या को सही ढंग से समझ, तुम, गीत विभाजित आदि, समूहों में के लिए एक मौजूदा तकनीक है और अब कि क्लस्टर की सामग्री का एक "सर्वश्रेष्ठ" उदाहरण के आधार पर चयन करना चाहते हैं जो कुछ भी परिभाषित विशेषताओं हैं।

मैं Bayesian classifiers पर एक नज़र डालेगा। ये आपके डेटा में दिए गए क्लस्टर की मुख्य परिभाषा विशेषताओं को समझने में मदद कर सकते हैं (यह मानते हुए कि क्लस्टरिंग एक स्पष्ट, अच्छी तरह से परिभाषित वर्गीकरण पर आधारित नहीं थी) साथ ही मेटाडेटा या अन्य पैरामीटर में शोर और त्रुटि के लिए कुछ सहिष्णुता प्रदान करता है। फिर आपके डेटा और क्लस्टर की प्रकृति के आधार पर, आप शायद किसी दिए गए क्लस्टर से एक या अधिक से अधिक प्रतिनिधि उदाहरण निर्धारित करने के लिए maximum likelihood या नमूनाकरण विधियों का उपयोग कर सकते हैं।

बेयसियन विधियां अनुपलब्ध डेटा को कवर करने के लिए भी उपयोगी हो सकती हैं, उदाहरण के लिए, मेटाडेटा मान अनुपलब्ध हैं। नमूना वितरण का उपयोग अन्य डेटा फ़ील्ड में ज्ञात मानों के आधार पर अनुपलब्ध डेटा के संभावित मान उत्पन्न करने के लिए किया जा सकता है।

स्रोत

2010-06-05 17:20:02

मशीन लर्निंग एल्गोरिदम।

उत्तर

संबंधित मुद्दे