6

क्या कोई भी अच्छा ओपन-सोर्स टेक्स्ट-वर्गीकरण मॉडल के बारे में जानता है? मैं स्टैनफोर्ड क्लासिफायरफायर, वेका, मैलेट इत्यादि के बारे में जानता हूं लेकिन उनमें से सभी को प्रशिक्षण की आवश्यकता है।टेक्स्ट वर्गीकरण क्लासिफायर

मुझे खेल लेख/राजनीति/स्वास्थ्य/गेमिंग/आदि में समाचार लेख वर्गीकृत करने की आवश्यकता है। क्या वहां कोई पूर्व-प्रशिक्षित मॉडल है?

कीमिया, ओपनकालिस, आदि विकल्प नहीं हैं। मुझे ओपन-सोर्स टूल्स की आवश्यकता है (अधिमानतः जावा में)।

उत्तर

5

एक पूर्व प्रशिक्षित मॉडल होने पूर्व प्रशिक्षित मॉडलों की एक लंबी सूची है मानता है कि कोष कि प्रशिक्षित करने के लिए इस्तेमाल किया गया था दस्तावेजों तरह बिल्कुल समान डोमेन से है आप वर्गीकृत करने की कोशिश कर रहे हैं। आम तौर पर यह आपको वह परिणाम नहीं देगा जो आप चाहते हैं क्योंकि आपके पास मूल कॉर्पस नहीं है। मशीन सीखना स्थिर नहीं है, जब आप वर्गीकृत को प्रशिक्षित करते हैं तो आपको मॉडल को अपडेट करने की आवश्यकता होती है जब नई सुविधाएं/जानकारी उपलब्ध हो जाती है।

उदाहरण के लिए खेल लेख/राजनीति/स्वास्थ्य/गेमिंग/आदि के डोमेन में समाचार लेख वर्गीकृत करना उदाहरण के लिए लें।

सबसे पहले कौन सी भाषा? क्या हम केवल अंग्रेजी के बारे में बात कर रहे हैं? मूल कॉर्पस लेबल कैसे किया गया था? और सबसे बड़ा अज्ञात आदि श्रेणी है।

अपने स्वयं के वर्गीकृत प्रशिक्षण वास्तव में वास्तव में आसान है। यदि आप पाठ वर्गीकृत कर रहे हैं, तो MALLET सबसे अच्छा विकल्प है। आप 10 मिनट से भी ज्यादा समय तक चल सकते हैं और दौड़ सकते हैं। आप अपने आवेदन में 1 घंटे से कम समय में MALLET जोड़ सकते हैं।

यदि आप समाचार लेख वर्गीकृत करना चाहते हैं तो बहुत सारे ओपन सोर्स निगम हैं जिन्हें आप प्रशिक्षण शुरू करने के लिए आधार के रूप में उपयोग कर सकते हैं। मैं रॉयटर्स -21578 या आरसीवी -1 के साथ शुरू करूंगा।

+0

आपके उत्तर के लिए धन्यवाद, शेन, बहुत धन्यवाद।मैं निश्चित रूप से आपके द्वारा उल्लिखित डेटा सेटों को देखूंगा! लेकिन हाँ, मैं केवल अंग्रेजी डेटा पर काम कर रहा हूं, और समाचार लेखों के सामान्य डोमेन (जैसे कि कीमिया और ओपनकालिस द्वारा वर्गीकृत)। मैं मैलेट को एक शॉट दूंगा। – MFARID

+0

ग्रेट मुझे बताएं अगर आपको कोई समस्या है! – Shane

0
+1

धन्यवाद एक बहुत है, लेकिन उनमें से कोई भी पाठ वर्गीकरण – MFARID

+0

सुनिश्चित नहीं हूं कि अगर यह अपनी जरूरत https://cwiki.apache.org/MAHOUT/bayesian.html भी सूट एक उदाहरण उद्धृत करते हुए जो उनके स्रोत के साथ आता है। https://cwiki.apache.org/MAHOUT/wikipedia-bayes-example.html –

2

आपकी आवश्यकता के आधार पर वहां कई क्लासिफायर हैं। सबसे पहले, मुझे लगता है कि आप वर्गीकृत करना चाहते हैं कि आप क्लासिफायर के साथ क्या करना चाहते हैं।

और प्रशिक्षण वर्गीकरण के चरणों का हिस्सा है, मुझे नहीं लगता कि आपको वहां बहुत से प्रशिक्षित क्लासिफायर मिलेंगे। इसके अलावा, प्रशिक्षण वर्गीकरण का लगभग हमेशा आसान हिस्सा है।

कहा जा रहा है कि वास्तव में बहुत से संसाधन हैं जिन्हें आप देख सकते हैं। मैं इस बात का श्रेय लेने का नाटक नहीं कर सकते हैं, लेकिन इस उदाहरण में से एक है:

Weka - डाटा खनन के लिए मशीन सीखने वाले एल्गोरिदम का एक संग्रह है। यह सबसे लोकप्रिय टेक्स्ट वर्गीकरण ढांचे में से एक है। इसमें व्यापक विविध प्रकार के एल्गोरिदम शामिल हैं जिनमें बेवकूफ बेयस और समर्थन वेक्टर मशीनें (एसएमओ, एसएमओ के तहत सूचीबद्ध) शामिल हैं [नोट: अन्य सामान्यतः गैर-जावा एसवीएम कार्यान्वयन एसवीएम-लाइट, लिबएसवीएम, और एसवीएम टॉर्च] हैं। संबंधित प्रोजेक्ट केया (कीफ्रेज़ एक्सट्रैक्शन एल्गोरिदम) टेक्स्ट दस्तावेज़ों से कीफ्रेज़ निकालने के लिए एक एल्गोरिदम है।

अपाचे Lucene महावत - Hadoop नक्शा को कम ढांचे के शीर्ष पर बनाया अत्यधिक स्केलेबल आम मशीन सीखने एल्गोरिदम के वितरित कार्यान्वयन के लिए एक इनक्यूबेटर परियोजना।

स्रोत: http://www.searchenginecaffe.com/2007/03/java-open-source-text-mining-and.html

+0

धन्यवाद, हार्दिक, आपके उत्तर के लिए। – MFARID

2

क्या आप वर्गीकरण मतलब बहुत महत्वपूर्ण है।

वर्गीकरण पर्यवेक्षित कार्य है, जिसके लिए पहले से लेबल किए गए कॉर्पस की आवश्यकता होती है। पहले से लेबल किए गए कॉर्पस से आगे बढ़ते हुए, आपको कई विधियों और दृष्टिकोणों का उपयोग करके एक मॉडल बनाना होगा और अंततः आप उस मॉडल का उपयोग करके एक लेबल रहित परीक्षण कॉर्पस वर्गीकृत कर सकते हैं। यदि ऐसा है, तो आप एक बहु-श्रेणी वर्गीकरण का उपयोग कर सकते हैं जो आम तौर पर बाइनरी क्लासिफायर का बाइनरी पेड़ अनुप्रयोग होता है। इस तरह के एक कार्य के लिए कला दृष्टिकोण राज्य मशीन सीखने की शाखा का उपयोग कर रहा है, एसवीएम। सबसे अच्छे एसवीएम क्लासिफायरर्स में से दो लिबएसवीएम और एसवीएमलाइट हैं। ये खुले स्रोत हैं, उपयोग में आसान हैं और बहु-वर्ग वर्गीकरण उपकरण शामिल हैं। अंत में, आपको अच्छे परिणाम प्राप्त करने के अलावा क्या करना है, यह समझने के लिए आपको साहित्य सर्वेक्षण करना होगा, क्योंकि उन क्लासिफायरों का उपयोग स्वयं ही पर्याप्त नहीं है। आपको जानकारी वाले हिस्सों (जैसे यूनिग्राम) निकालने और शोर भागों को छोड़कर अपने कॉर्पस में हेरफेर/प्री-प्रोसेस करना है। आम तौर पर, आपके पास शायद जाने का लंबा रास्ता है, लेकिन एनएलपी एक बहुत ही रोचक विषय है और काम करने के लिए उपयुक्त है।

हालांकि, यदि वर्गीकरण द्वारा आपका मतलब क्लस्टरिंग है, तो समस्या अधिक जटिल होगी। क्लस्टरिंग अन-पर्यवेक्षित कार्य है, जिसका अर्थ है कि आप उस प्रोग्राम के लिए कोई जानकारी शामिल नहीं करेंगे जिसके बारे में आप उपयोग कर रहे हैं, उदाहरण के लिए कौन सा समूह/विषय/वर्ग है। हाइब्रिड सेमी-पर्यवेक्षित दृष्टिकोण पर अकादमिक कार्य भी हैं, लेकिन वे क्लस्टरिंग समस्या के वास्तविक उद्देश्य से थोड़ा अलग हो रहे हैं। प्री-प्रसंस्करण जो आपको अपने कॉर्पस में हेरफेर करते समय उपयोग करने की आवश्यकता है, वर्गीकरण समस्या में आपको क्या करना है, इसके साथ एक समान प्रकृति है, इसलिए मैं इसका पुन: उल्लेख नहीं करूंगा। क्लस्टरिंग करने के लिए, आपको कई दृष्टिकोण हैं जिनका पालन करना है। सबसे पहले, आप एलडीए (लेटेंट ड्रिचलेट आवंटन) आपके कॉर्पस की आयामता (आपकी सुविधा-स्थान के आयामों की संख्या) को कम करने के लिए विधि का उपयोग कर सकते हैं, जो सुविधाओं से दक्षता और सूचना लाभ में योगदान देगा। एलडीए के अलावा या बाद में, आप पदानुक्रमित क्लस्टरिंग या के-मीन्स जैसे अन्य गैर-लेबल किए गए कॉर्पस को क्लस्टर करने के लिए उपयोग कर सकते हैं। आप क्लस्टरिंग के लिए ओपन-सोर्स टूल्स के रूप में गैन्सिम या साइकिट- सीख सकते हैं। दोनों शक्तिशाली, अच्छी तरह से प्रलेखित और उपयोग करने में आसान उपकरण हैं।

सभी मामलों में, बहुत से अकादमिक पढ़ने और उन कार्यों और समस्याओं के नीचे सिद्धांत को समझने का प्रयास करें। इस तरह, आप जो विशेष रूप से काम कर रहे हैं उसके लिए आप अभिनव और कुशल समाधान के साथ आ सकते हैं, क्योंकि एनएलपी में समस्याएं आमतौर पर कॉर्पस निर्भर होती हैं और आप अपनी विशिष्ट समस्या से निपटने के दौरान आम तौर पर अपने आप पर होते हैं। जेनेरिक और उपयोग में आसान समाधान ढूंढना बहुत मुश्किल है और मैं इस तरह के विकल्प पर भरोसा करने की भी सिफारिश नहीं करता हूं।

अप्रासंगिक भागों के लिए खेद है, मैं आपके प्रश्न का अधिक उत्तर दे सकता हूं।

गुड लक =)

+0

महान जवाब! बहुत बहुत धन्यवाद। मैं वर्गीकरण के बारे में अच्छी तरह से अवगत हूं। मैं पर्यवेक्षित दृष्टिकोण की तलाश में था, लेकिन पूर्व-प्रशिक्षित मॉडल – MFARID

+1

वर्गीकरण में आपके काम का प्राथमिक परिणाम मॉडल है; अन्य सभी चीजें एक अच्छी मॉडल बनाने के लिए हैं जो आपकी आवश्यकताओं के अनुरूप है। इस अर्थ में, एक उपयोग में आसान मॉडल खोजने की कोशिश अप्रासंगिक है और शायद असंभव है। यह मुख्य रूप से वह कार्य है जिसे आप प्राप्त करने का प्रयास कर रहे हैं, जिस कॉर्पस पर आप काम कर रहे हैं, आपको जिस दक्षता की आवश्यकता है और अन्य सभी पहलू आपके और आपके मामले के लिए अद्वितीय होंगे; इस प्रकार यह एक मॉडल खोजने के लिए शुद्ध भाग्य का विषय है जो आपके लक्ष्यों को पूरा करेगा। मेरी सलाह है कि जितनी जल्दी हो सके अपने हाथ गंदे हो, शुभकामनाएं =) – clancularius

संबंधित मुद्दे