क्या आप वर्गीकरण मतलब बहुत महत्वपूर्ण है।
वर्गीकरण पर्यवेक्षित कार्य है, जिसके लिए पहले से लेबल किए गए कॉर्पस की आवश्यकता होती है। पहले से लेबल किए गए कॉर्पस से आगे बढ़ते हुए, आपको कई विधियों और दृष्टिकोणों का उपयोग करके एक मॉडल बनाना होगा और अंततः आप उस मॉडल का उपयोग करके एक लेबल रहित परीक्षण कॉर्पस वर्गीकृत कर सकते हैं। यदि ऐसा है, तो आप एक बहु-श्रेणी वर्गीकरण का उपयोग कर सकते हैं जो आम तौर पर बाइनरी क्लासिफायर का बाइनरी पेड़ अनुप्रयोग होता है। इस तरह के एक कार्य के लिए कला दृष्टिकोण राज्य मशीन सीखने की शाखा का उपयोग कर रहा है, एसवीएम। सबसे अच्छे एसवीएम क्लासिफायरर्स में से दो लिबएसवीएम और एसवीएमलाइट हैं। ये खुले स्रोत हैं, उपयोग में आसान हैं और बहु-वर्ग वर्गीकरण उपकरण शामिल हैं। अंत में, आपको अच्छे परिणाम प्राप्त करने के अलावा क्या करना है, यह समझने के लिए आपको साहित्य सर्वेक्षण करना होगा, क्योंकि उन क्लासिफायरों का उपयोग स्वयं ही पर्याप्त नहीं है। आपको जानकारी वाले हिस्सों (जैसे यूनिग्राम) निकालने और शोर भागों को छोड़कर अपने कॉर्पस में हेरफेर/प्री-प्रोसेस करना है। आम तौर पर, आपके पास शायद जाने का लंबा रास्ता है, लेकिन एनएलपी एक बहुत ही रोचक विषय है और काम करने के लिए उपयुक्त है।
हालांकि, यदि वर्गीकरण द्वारा आपका मतलब क्लस्टरिंग है, तो समस्या अधिक जटिल होगी। क्लस्टरिंग अन-पर्यवेक्षित कार्य है, जिसका अर्थ है कि आप उस प्रोग्राम के लिए कोई जानकारी शामिल नहीं करेंगे जिसके बारे में आप उपयोग कर रहे हैं, उदाहरण के लिए कौन सा समूह/विषय/वर्ग है। हाइब्रिड सेमी-पर्यवेक्षित दृष्टिकोण पर अकादमिक कार्य भी हैं, लेकिन वे क्लस्टरिंग समस्या के वास्तविक उद्देश्य से थोड़ा अलग हो रहे हैं। प्री-प्रसंस्करण जो आपको अपने कॉर्पस में हेरफेर करते समय उपयोग करने की आवश्यकता है, वर्गीकरण समस्या में आपको क्या करना है, इसके साथ एक समान प्रकृति है, इसलिए मैं इसका पुन: उल्लेख नहीं करूंगा। क्लस्टरिंग करने के लिए, आपको कई दृष्टिकोण हैं जिनका पालन करना है। सबसे पहले, आप एलडीए (लेटेंट ड्रिचलेट आवंटन) आपके कॉर्पस की आयामता (आपकी सुविधा-स्थान के आयामों की संख्या) को कम करने के लिए विधि का उपयोग कर सकते हैं, जो सुविधाओं से दक्षता और सूचना लाभ में योगदान देगा। एलडीए के अलावा या बाद में, आप पदानुक्रमित क्लस्टरिंग या के-मीन्स जैसे अन्य गैर-लेबल किए गए कॉर्पस को क्लस्टर करने के लिए उपयोग कर सकते हैं। आप क्लस्टरिंग के लिए ओपन-सोर्स टूल्स के रूप में गैन्सिम या साइकिट- सीख सकते हैं। दोनों शक्तिशाली, अच्छी तरह से प्रलेखित और उपयोग करने में आसान उपकरण हैं।
सभी मामलों में, बहुत से अकादमिक पढ़ने और उन कार्यों और समस्याओं के नीचे सिद्धांत को समझने का प्रयास करें। इस तरह, आप जो विशेष रूप से काम कर रहे हैं उसके लिए आप अभिनव और कुशल समाधान के साथ आ सकते हैं, क्योंकि एनएलपी में समस्याएं आमतौर पर कॉर्पस निर्भर होती हैं और आप अपनी विशिष्ट समस्या से निपटने के दौरान आम तौर पर अपने आप पर होते हैं। जेनेरिक और उपयोग में आसान समाधान ढूंढना बहुत मुश्किल है और मैं इस तरह के विकल्प पर भरोसा करने की भी सिफारिश नहीं करता हूं।
अप्रासंगिक भागों के लिए खेद है, मैं आपके प्रश्न का अधिक उत्तर दे सकता हूं।
गुड लक =)
आपके उत्तर के लिए धन्यवाद, शेन, बहुत धन्यवाद।मैं निश्चित रूप से आपके द्वारा उल्लिखित डेटा सेटों को देखूंगा! लेकिन हाँ, मैं केवल अंग्रेजी डेटा पर काम कर रहा हूं, और समाचार लेखों के सामान्य डोमेन (जैसे कि कीमिया और ओपनकालिस द्वारा वर्गीकृत)। मैं मैलेट को एक शॉट दूंगा। – MFARID
ग्रेट मुझे बताएं अगर आपको कोई समस्या है! – Shane