2013-03-06 5 views
6

क्या कोई भी OpenNLP NameFinder मॉड्यूल द्वारा उपयोग किए गए एल्गोरिदम को इंगित कर सकता है? कोड जटिल है और केवल काले रंग के बॉक्स के रूप में इसे दस्तावेज और खेल रहा है (प्रदान किए गए डिफ़ॉल्ट मॉडल के साथ) मुझे यह इंप्रेशन देता है कि यह ज्यादातर ह्युरिस्टिक है। यहाँ इनपुट और आउटपुट के लिए कुछ उदाहरण हैं:ओपनएनएलपी (डिफ़ॉल्ट मॉडल) के साथ नामांकित इकाई पहचान

इनपुट:

जॉन स्मिथ निराश है।

जॉन स्मिथ निराश है।

बराक ओबामा निराश हैं।

ह्यूगो चावेज़ निराश हैं। (और नहीं)

जेफ एटवुड निराश है।

बिंग लियू ओपनएनएलपी एनईआर मॉड्यूल से निराश है।

नोएम चॉम्स्की दुनिया से निराश है।

जेडन स्मिथ निराश हैं।

स्मिथ जेडन निराश हैं।

लेडी गागा निराश है।

सुश्री गागा निराश हैं।

श्रीमती गागा निराश हैं।

जेडन निराश हैं।

श्री लियू निराश हैं।

आउटपुट (मैं कोष्ठक वर्ग हीरे बदल):

[स्टार्ट: व्यक्ति] जॉन स्मिथ [अंत] निराश है।

जॉन स्मिथ निराश है।

[प्रारंभ: व्यक्ति] बराक ओबामा [ईएनडी] निराश है।

ह्यूगो चावेज़ निराश हैं। (और नहीं)

[प्रारंभ: व्यक्ति] जेफ एटवुड [ईएनडी] निराश है।

बिंग लियू ओपनएनएलपी एनईआर मॉड्यूल से निराश है।

[प्रारंभ: व्यक्ति] नोम चॉम्स्की [ईएनडी] दुनिया से निराश है।

जेडन [स्टार्ट: व्यक्ति] स्मिथ [ईएनडी] निराश है।

[प्रारंभ: व्यक्ति] स्मिथ [अंत] [प्रारंभ: व्यक्ति] जेडन [ईएनडी] निराश है।

लेडी गागा निराश है।

सुश्री गागा निराश हैं।

श्रीमती गागा निराश हैं।

जेडन निराश हैं।

श्री लियू निराश हैं।

ऐसा लगता है कि मॉडल बस उन नामों की एक निश्चित सूची सीखता है जो प्रशिक्षण डेटा में एनोटेटेड हैं और कुछ टाइलिंग और संयोजनों की अनुमति देता है। दो उल्लेखनीय (एफएन) उदाहरण हैं:

  1. श्री और श्रीमती जैसे मजबूत नाम संकेतक अनदेखा कर रहे हैं।
  2. जयडन (2011 में यूएस में # 4 सबसे लोकप्रिय नाम) की पहचान नहीं की गई थी, जबकि निम्नलिखित 'स्मिथ' ("जेडन स्मिथ ..." में) की पहचान की गई थी। मुझे संदेह है कि मॉडल "सोचता है" कि वाक्य की शुरुआत में पूंजीकृत जेडन वाक्य की शुरुआत के कारण है और एनई होने के कारण नहीं है। ऑर्डर को उलटते हुए, "स्मिथ जेडन" एक संकेत के रूप में (मानते हुए 1), ओपनएनएलपी इसे दो विशिष्ट एनईएस के रूप में पहचानता है, "जॉन स्मिथ" जैसे अन्य पूर्ण नामों के विपरीत, शायद यह सुझाव दे रहा है कि 'स्मिथ' अंतिम नाम सूची में है ..

-> मैं परेशान और निराश हूं और अगर कोई मुझे एल्गोरिदम (या इसे सत्यापित करता है) पर इंगित कर सकता है तो मैं आभारी रहूंगा।

पेज। स्टैनफोर्ड और यूआईयूसी एनईआर सिस्टम दोनों सूक्ष्म मतभेदों के साथ बहुत बेहतर प्रदर्शन करते हैं जो दिलचस्प हैं लेकिन विषय बंद हैं (यह प्रश्न बहुत लंबा है)

उत्तर

5

जैसा कि नाम का तात्पर्य है, NameFinderME अधिकतम एंट्रॉपी मॉडल का उपयोग करता है। Here एमई पर मौलिक पेपर है।

यदि ओपनएनएलपी का प्रदर्शन आपकी आवश्यकताओं को पूरा नहीं करता है और आप स्टैनफोर्ड या यूआईयूसी एनईआर का उपयोग नहीं कर सकते हैं, तो मैं का उपयोग करके Mallet को आजमाने की सलाह देता हूं। This sample code आपको शुरू करना चाहिए।

+0

धन्यवाद! मैं ईएम यहाँ एक गरीब नौकरी कर रहा हूँ। दिलचस्प सवाल यह है कि फीचर सेट क्या है। शब्द? पूंजीकरण? वाक्यों को विभाजित किया जा रहा है '।' इसलिए श्रीमान सहायक नहीं है? मैं व्यक्तिगत रूप से स्टैनफोर्ड एनईआर का उपयोग करता हूं और इसके साथ बहुत खुश हूं लेकिन मैं ओपनएनएलपी अजीब परिणामों के बारे में उत्सुक था। – ScienceFriction

संबंधित मुद्दे