2010-02-19 6 views
26

मैं जावा में एक अच्छा ओपन सोर्स POS Tagger ढूंढ रहा हूं। यहां तक ​​कि मैंने अभी तक क्या किया है।पार्ट्स-ऑफ-स्पीच टैगिंग के लिए एक अच्छी जावा लाइब्रेरी क्या है?

किसी कोई सुझाव है?

उत्तर

3

मैंने अच्छे परिणाम के साथ OpenNLP का उपयोग किया है। आप MorphAdorner भी देख सकते हैं।

3

मैंने लिंगपिप और स्टैनफोर्ड के पीओएस टैगर दोनों का उपयोग किया है। बाद में state-of-the-art पीओएस टैगर है, लेकिन, मेरे अनुभव से, यह बहुत धीमा है (हालांकि वे कम सटीक मॉडल प्रदान करते हैं, जो काफी तेज़ हैं)। बेशक, यह हमेशा आप जो हासिल करने की कोशिश कर रहे हैं उस पर निर्भर करता है, और गति और सटीकता के बीच हमेशा व्यापार-बंद रहेगा।

मैंने एक बार एलबीजे-आधारित एनईआर सॉफ्टवेयर का भी उपयोग किया है और, हालांकि यह काफी सटीक था, स्रोत कोड एक पूर्ण गड़बड़ था। लिंगपिप और स्टैनफोर्ड दोनों स्रोत बहुत साफ और अच्छी तरह से प्रलेखित हैं।

आप LTAG-spinal पर भी एक नज़र डाल सकते हैं। मैंने अभी तक इसका उपयोग नहीं किया है, लेकिन एल्गोरिदम विवरण से, और सूचीबद्ध सटीकता से, यह निश्चित रूप से आपके विकल्पों के मुकाबले बेहतर लगता है।

उम्मीद है कि यह मदद करता है।

+6

स्टैनफोर्ड का सबसे अच्छा मॉडल मामूली धीमा है। लेकिन, वास्तव में, एलएजी-रीढ़ की हड्डी फिर से 3 गुना धीमी है और महत्वहीन रूप से बेहतर है। सामान्य प्रयोजन के उपयोग के लिए, हम बाएं 3 शब्द मॉडल की अनुशंसा करते हैं: इसके साथ टैगिंग रत्नापार्खी या ओपनएनएलपी टैगर की तुलना में समान या बेहतर गति है लेकिन यह किसी भी से अधिक सटीक है। स्टैनफोर्ड पीओएस टैगर एफएक्यू में [अधिक जानकारी] (http://nlp.stanford.edu/software/pos-tagger-faq.shtml#h) खोजें। –

+0

मुझे ओपनएनएलपी के साथ कोई तुलना नहीं मिल सकती है (केवल अन्य टैगर्स के साथ) - क्या मैं कुछ दिख रहा हूं? – benroth

+0

@ क्रिस्टोफरमैनिंग मैंने पेन ट्रीबैंक का उपयोग करके 10 गुना क्रॉस सत्यापन किया है। ऐसा लगता है कि left3words opennlp से थोड़ा बदतर है। लेकिन बिडरेक्शनल वास्तव में बेहतर है। क्या आप उस डेटा के बारे में अधिक बता सकते हैं जिस पर आपने तुलना की थी? धन्यवाद! –

15

क्या आप किसी विशिष्ट डोमेन में पीओएस टैग करना चाहते हैं? अधिकांश सामान्य प्रयोजन टैगर्स को न्यूज़वायर टेक्स्ट पर प्रशिक्षित किया जाता है। आम तौर पर जब आप उन्हें विशिष्ट डोमेन (जैसे और बायोमेडिकल टेक्स्ट) में उपयोग कर रहे होते हैं तो वे अच्छा प्रदर्शन नहीं करते हैं। बायोमेडिकल टेक्स्ट के लिए dTagger (जावा) जैसे डोमेन के लिए विशेष रूप से प्रशिक्षित अन्य टैगर्स हैं।

न्यूज़वायर टेक्स्ट के लिए, एडवाइट रत्नापार्फी के MXPOST बहुत अच्छे हैं और क्या मैं अनुशंसा करता हूं।

अन्य जावा कार्यान्वयन में शामिल हैं:

  1. MontyLingua
  2. Berkeley Parser (वास्तव में एक पीओएस टैगर लेकिन सभी पूर्ण विकसित पारसर्स आम तौर पर स्थिति टैगकर्ताओं शामिल होंगे गूगल जावा वाक्यात्मक पारसर्स के लिए और आप कई मिल जाएगा। ।)
  3. QTag
  4. LBJ

OpenNLP और Lingpipe अन्य पोस्टर द्वारा पोस्ट किए गए अनुसार भी सभ्य हैं।

पीओएस टैगिंग पर अत्याधुनिक जानकारी here मिल सकती है। जैसा कि आप देख सकते हैं LTAG-Spinal (किसी अन्य पोस्टर द्वारा भी उल्लेख किया गया है) अब तक सबसे अच्छा है, लेकिन विभिन्न टैगर्स में भिन्नता बहुत अधिक नहीं है। मैंने स्वयं एलजीई का उपयोग नहीं किया है।

यह भी ध्यान रखें कि पीओएस टैगिंग के लिए आधारभूत प्रदर्शन लगभग 9 0% है। बेसलाइन का मतलब है - (ए) लेक्सिकॉन से सबसे लगातार पीओएस टैग द्वारा प्रत्येक शब्द को टैग करें, और (बी) प्रत्येक अज्ञात शब्द को संज्ञा के रूप में टैग करें।

+0

आपका एमएक्सपीओएसटी लिंक एक संपीड़ित संग्रह के साथ एक एफ़टीपी साइट पर है। मैंने चारों ओर खोज की और एक व्यक्ति के सीएस थीसिस होने के अलावा एमएक्सपोस्ट के बारे में बहुत कुछ नहीं मिला। क्या मैं यह मानने में सही हूं कि एमएक्सपोस्ट के लिए ज्यादा सामुदायिक समर्थन नहीं है? – Glenn

+1

@Glenn हां। हालांकि OPENNLP MXPOST के बराबर कार्यान्वयन प्रतीत होता है। मैं OPENNLP साइट से उद्धरण देता हूं: 1. * यदि आप एडवाइट रत्नापार्खी के अधिकतम कार्यान्वयन के लिए फीचर चयन से परिचित हैं, तो आपको कोई समस्या नहीं होनी चाहिए क्योंकि हमारे कार्यान्वयन [पीओएस टैगर] के रूप में उनकी सुविधाओं के समान तरीके से उपयोग किया जाता है। * और 2. * उनकी [Adwait के] NLP और शोध प्रबंध के लिए MAXENT का परिचय क्या वास्तव में opennlp.maxent और हमारे Grok MAXENT घटकों (पीओएस टैगर, वाक्य डिटेक्टर, tokenizer के अंत में, नाम खोजक) संभव बना रहे हैं! * ओपनएनएलपी में एक सक्रिय स्रोतforge समुदाय प्रतीत होता है। – hashable

+0

अंत में, यह लिंगपिप था जो मेरे लिए सबसे अच्छा काम करता था। यह किसी अन्य सिस्टम के भीतर आसानी से एम्बेड करने में सक्षम होने के मामले में सबसे अच्छा था। यह पीओएस टैगिंग पर भी एक बहुत अच्छी नौकरी थी। – Glenn

संबंधित मुद्दे