2010-01-14 21 views
7

क्या कोई शोध पत्र/पुस्तक है जिसे मैं पढ़ सकता हूं जो मुझे समस्या के बारे में बता सकता है कि किस प्रकार का फीचर चयन एल्गोरिदम सर्वोत्तम काम करेगा।फ़ीचर चयन एल्गोरिदम का चयन कैसे करें? - सलाह

मैं बस स्थिति/neg (के साथ शुरू करने के लिए) के रूप में चहचहाना संदेशों की पहचान करने की कोशिश कर रहा हूँ। मैं फ्रीक्वेंसी आधारित सुविधा चयन (NLTK किताब के साथ शुरू हो रही है) के साथ बाहर शुरू किया, लेकिन जल्द ही एहसास है कि एक समान समस्या के लिए विभिन्न व्यक्तियों अलग एल्गोरिदम

चुना है हालांकि मैं फ्रीक्वेंसी आधारित, आपसी जानकारी, जानकारी लाभ और विभिन्न अन्य एल्गोरिदम कोशिश कर सकते हैं सूची अंतहीन लगता है .. और सोच रहा था कि परीक्षण और त्रुटि के बाद कोई कुशल तरीका है या नहीं।

किसी भी सलाह

उत्तर

4

मैं एक NLP पाठ्यक्रम पिछले अवधि किया था, और यह बहुत स्पष्ट है कि भावना विश्लेषण कुछ है कि कोई भी वास्तव में अच्छी तरह से करने के लिए कैसे (अभी तक) जानता है आया था। असुरक्षित शिक्षा के साथ ऐसा करना निश्चित रूप से कठिन है।

काफी अनुसंधान इस बारे में चल रहा का एक बहुत है, इसके बारे में कुछ वाणिज्यिक और इस तरह जनता के लिए खुला नहीं। मैं आपको किसी भी शोध पत्र पर इंगित नहीं कर सकता लेकिन पाठ्यक्रम के लिए हमने जिस पुस्तक का उपयोग किया था वह this (google books preview) था। उस ने कहा, पुस्तक में बहुत सारी सामग्री शामिल है और शायद इस विशेष समस्या का हल ढूंढने का सबसे तेज़ तरीका नहीं हो सकता है। मैं की ओर इंगित कर सकते हैं

केवल दूसरी बात "भावना विश्लेषण" या "राय खनन के लिए" आसपास googling, हो सकता है scholar.google.com में प्रयास करने के लिए है।

NLTK movie_reviews कोष पर एक नज़र डालें। समीक्षा पहले से ही pos/neg वर्गीकृत हैं और आपके वर्गीकरण को प्रशिक्षित करने में आपकी सहायता कर सकती हैं। यद्यपि आप ट्विटर में जो भाषा पाते हैं वह शायद उनसे बहुत अलग है।

एक अंतिम टिप्पणी के रूप में, (उस बात के लिए या विफलता) किसी भी सफलताओं यहां पोस्ट करें। यह मुद्दा बाद में निश्चित रूप से कुछ बिंदु पर आ जाएगा।

+0

क्या पुस्तक में कोई भी कोड है या क्या यह सिद्धांत भारी है? –

+0

यह काफी सिद्धांत भारी है और मुख्य रूप से उन तरीकों के लिए गणितीय पृष्ठभूमि पर केंद्रित है जो उनके कार्यान्वयन पर नहीं हैं। मैंने इसे Google पुस्तकें से पाया और आप वहां ब्राउज़ कर सकते हैं। मैं अपनी मूल पोस्ट में लिंक जोड़ूंगा। –

1

दुर्भाग्यवश, मशीन सीखने से निपटने के दौरान किसी भी चीज़ के लिए चांदी की बुलेट नहीं है। इसे आमतौर पर "No Free Lunch" प्रमेय के रूप में जाना जाता है। असल में कई एल्गोरिदम किसी समस्या के लिए काम करते हैं, और कुछ कुछ समस्याओं पर बेहतर होते हैं और दूसरों पर भी बदतर होते हैं। कुल मिलाकर, वे सभी इसके बारे में प्रदर्शन करते हैं। एक ही सुविधा सेट एक एल्गोरिदम बेहतर प्रदर्शन करने के लिए और किसी अन्य डेटा सेट के लिए खराब प्रदर्शन करने का कारण बन सकता है। एक अलग डेटा सेट के लिए, स्थिति पूरी तरह से उलट किया जा सकता है।

आमतौर पर मैं क्या कुछ फीचर चयन एल्गोरिदम कि समान कार्य पर अन्य लोगों के लिए काम किया है लेने और फिर उन के साथ शुरू होता है। यदि मेरे पसंदीदा क्लासिफायरों का उपयोग करने वाला प्रदर्शन स्वीकार्य है, तो दूसरे आधा प्रतिशत बिंदु के लिए स्क्रॉन्गिंग शायद मेरे समय के लायक नहीं है। लेकिन अगर यह स्वीकार्य नहीं है, तो अब मेरे दृष्टिकोण का फिर से मूल्यांकन करने का समय है, या अधिक फीचर चयन विधियों की तलाश है।

6

क्या आपने अपनी अंतिम प्रश्न पर अनुशंसित पुस्तक की कोशिश की है? यह ऑनलाइन और पूरी तरह से उस कार्य के बारे में है जो आप कर रहे हैं: Sentiment Analysis and Opinion Mining पांग और ली द्वारा। अध्याय 4 ("निष्कर्षण और वर्गीकरण") सिर्फ वही है जो आपको चाहिए!

+1

मुझे एहसास नहीं हुआ कि यह मुफ्त में उपलब्ध है - मैंने अभी सवाल देखा और पीडीएफ पाया - मुझे लगता है कि यह दिलचस्प हो सकता है - जब मैं अमेज़ॅन पर $ 99 मूल्य टैग देखता था तो मुझे थोड़ा असंतुष्ट था - आपकी मदद के लिए धन्यवाद।मैं इसे अभी पढ़ रहा हूं .. –

+1

आपका बहुत स्वागत है। बीटीडब्ल्यू, अब आपके पास प्रतिष्ठा के 15 से अधिक अंक हैं, आप अपवॉट भी कर सकते हैं, हेहे ... ;-) – ferdystschenko

संबंधित मुद्दे