2013-04-07 11 views
16

मेरा काम नामित इकाइयों को निकालने के लिए दस्तावेजों को चलाने के लिए यूआईएमए क्लस्टर का उपयोग करने की योजना बना रहा है और क्या नहीं। जैसा कि मैं इसे समझता हूं, यूआईएमए के पास इसके साथ पैक किए गए बहुत कम एनएलपी घटक हैं। मैं थोड़ी देर के लिए गेट का परीक्षण कर रहा हूं और इसके साथ काफी सहज हूं। यह सामान्य पाठ पर ठीक है, लेकिन जब हम इसे कुछ प्रतिनिधि परीक्षण डेटा के माध्यम से चलाते हैं, तो सटीकता कम हो जाती है। हमारे पास आंतरिक रूप से टेक्स्ट डेटा कभी-कभी सभी कैप्स होता है, कभी-कभी सभी लोअरकेस, या एक ही दस्तावेज़ में दोनों का मिश्रण। एएनएनआईई के सभी कैप्स नियमों का भी उपयोग करते हुए, सटीकता अभी भी वांछित होने के लिए बहुत अधिक छोड़ देती है। मैंने हाल ही में स्टैनफोर्ड एनएलपी और ओपनएनएलपी के बारे में सुना है लेकिन उनके पास व्यापक रूप से प्रशिक्षित करने और परीक्षण करने का समय नहीं है। एएनएनआईई के साथ सटीकता के मामले में उन दोनों की तुलना कैसे की जाती है? क्या वे गेट की तरह यूआईएमए के साथ काम करते हैं?शुद्धता: एएनआईआईई बनाम स्टैनफोर्ड एनएलपी बनाम ओपनएनएलपी बनाम यूआईएमए

अग्रिम धन्यवाद।

+1

ANNIE नियम-आधारित है। मेरा अनुमान है कि स्टैनफोर्ड एनएलपी और ओपनएनएलपी को बेहतर प्रदर्शन करना चाहिए क्योंकि वे एमएल आधारित हैं। –

उत्तर

18

इन प्रणालियों के प्रदर्शन पर सामान्य अनुमान देने के लिए यह संभव/उचित नहीं है। जैसा कि आपने कहा था, आपके परीक्षण डेटा पर सटीकता कम हो जाती है। यह कई कारणों से है, एक आपके दस्तावेज़ों की भाषा विशेषताओं है, दूसरा उन टिप्पणियों की विशेषताओं है जिन्हें आप देखना चाहते हैं। प्रत्येक एनईआर कार्य के लिए अफैक समान हैं लेकिन अभी भी विभिन्न एनोटेशन दिशानिर्देश हैं।

कि, ने कहा कि बाद में आपके प्रश्नों पर:

एनी केवल मुक्त खुला स्रोत नियम आधारित एनईआर जावा में प्रणाली मैं मिल सकता है। यह समाचार लेखों के लिए लिखा गया है और मुझे लगता है कि एमयूसी 6 कार्य के लिए ट्यून किया गया है। अवधारणाओं के सबूत के लिए यह अच्छा है, लेकिन थोड़ा पुराना हो रहा है। मुख्य लाभ यह है कि आप मशीन सीखने, एनएलपी, शायद थोड़ा सा जावा में किसी भी ज्ञान के बिना इसे सुधारना शुरू कर सकते हैं। बस जेएपीई का अध्ययन करें और इसे एक शॉट दें।

ओपनएनएलपी, स्टैनफोर्ड एनएलपी इत्यादि डिफ़ॉल्ट रूप से समाचार लेखों के लिए मॉडलों के साथ आते हैं और प्रदर्शन करते हैं (केवल परिणामों को देखते हुए, उन्हें कभी भी बड़े कॉर्पस पर परीक्षण नहीं किया जाता) एएनएनआईई से बेहतर होता है। मुझे ओपनएनएलपी से बेहतर स्टैनफोर्ड पार्सर पसंद आया, फिर से दस्तावेजों, ज्यादातर समाचार लेखों को देखकर।

यह जानने के बिना कि आपके दस्तावेज़ कैसा दिखते हैं, मैं वास्तव में और अधिक नहीं कह सकता। आपको यह तय करना चाहिए कि आपका डेटा नियमों के लिए उपयुक्त है या आप मशीन सीखने के तरीके पर जाते हैं और ओपनएनएलपी या स्टैनफोर्ड पार्सर या Illinois tagger या कुछ भी उपयोग करते हैं। स्टैनफोर्ड पार्सर केवल आपके डेटा, प्रशिक्षण और उत्पादन के परिणामों को डालने के लिए अधिक उपयुक्त लगता है, जबकि ओपनएनएलपी अलग-अलग एल्गोरिदम की कोशिश करने के लिए अधिक उपयुक्त लगता है, पैरामीटर के साथ खेलना आदि।

यूआईएमए विवाद पर आपके गेट के लिए, मैंने दोनों को आजमाया और पाया वायरल समुदाय और गेट के लिए बेहतर दस्तावेज़ीकरण। व्यक्तिगत राय देने के लिए खेद है :)

5

बस यूआईएमए कोण का जवाब देने के रिकॉर्ड के लिए: स्टैनफोर्ड एनएलपी और ओपनएनएलपी दोनों के लिए, DKPro Core project के माध्यम से यूआईएमए विश्लेषण इंजन के रूप में उत्कृष्ट पैकेजिंग है।

3

मैं एक और नोट जोड़ना चाहता हूं। यूआईएमए और गेट प्राकृतिक भाषा प्रसंस्करण (एनएलपी) अनुप्रयोगों के निर्माण के लिए दो ढांचे हैं। हालांकि, नाम इकाई पहचान (एनईआर) एक मूल एनएलपी घटक है और आप यूआईएमए और गेट से स्वतंत्र एनईआर के कार्यान्वयन को पा सकते हैं। अच्छी खबर यह है कि आप आमतौर पर यूआईएमए और गेट में एक सभ्य एनईआर के लिए एक रैपर पा सकते हैं।यह स्पष्ट करते हैं इस उदाहरण को देखने के लिए:

यह स्टैनफोर्ड एनईआर घटक के लिए ही है।

अपने प्रश्न के लिए वापस आ रहा है, इस वेबसाइट कला ners के राज्य को सूचीबद्ध करता है: http://www.aclweb.org/aclwiki/index.php?title=Named_Entity_Recognition_(State_of_the_art)

उदाहरण के लिए, MUC-7 प्रतियोगिता में, सबसे अच्छा भागीदार LTG नामित 93.39% की सटीकता के साथ परिणाम मिला।

http://www.aclweb.org/aclwiki/index.php?title=MUC-7_(State_of_the_art)

ध्यान दें कि आप की ऐसी हालत उपयोग करना चाहते हैं कार्यान्वयन कर रहे हैं, तो आप अपने लाइसेंस के साथ कुछ समस्या हो सकती।

संबंधित मुद्दे