क्या कोई भी OpenNLP NameFinder मॉड्यूल द्वारा उपयोग किए गए एल्गोरिदम को इंगित कर सकता है? कोड जटिल है और केवल काले रंग के बॉक्स के रूप में इसे दस्तावेज और खेल रहा है (प्रदान किए गए डिफ़ॉल्ट मॉडल के साथ) मुझे यह इंप्रेशन देता है कि यह ज्यादातर ह्युरिस्टिक है। यहाँ इनपुट और आउटपुट के लिए कुछ उदाहरण हैं:ओपनएनएलपी (डिफ़ॉल्ट मॉडल) के साथ नामांकित इकाई पहचान
इनपुट:
जॉन स्मिथ निराश है।
जॉन स्मिथ निराश है।
बराक ओबामा निराश हैं।
ह्यूगो चावेज़ निराश हैं। (और नहीं)
जेफ एटवुड निराश है।
बिंग लियू ओपनएनएलपी एनईआर मॉड्यूल से निराश है।
नोएम चॉम्स्की दुनिया से निराश है।
जेडन स्मिथ निराश हैं।
स्मिथ जेडन निराश हैं।
लेडी गागा निराश है।
सुश्री गागा निराश हैं।
श्रीमती गागा निराश हैं।
जेडन निराश हैं।
श्री लियू निराश हैं।
आउटपुट (मैं कोष्ठक वर्ग हीरे बदल):
[स्टार्ट: व्यक्ति] जॉन स्मिथ [अंत] निराश है।
जॉन स्मिथ निराश है।
[प्रारंभ: व्यक्ति] बराक ओबामा [ईएनडी] निराश है।
ह्यूगो चावेज़ निराश हैं। (और नहीं)
[प्रारंभ: व्यक्ति] जेफ एटवुड [ईएनडी] निराश है।
बिंग लियू ओपनएनएलपी एनईआर मॉड्यूल से निराश है।
[प्रारंभ: व्यक्ति] नोम चॉम्स्की [ईएनडी] दुनिया से निराश है।
जेडन [स्टार्ट: व्यक्ति] स्मिथ [ईएनडी] निराश है।
[प्रारंभ: व्यक्ति] स्मिथ [अंत] [प्रारंभ: व्यक्ति] जेडन [ईएनडी] निराश है।
लेडी गागा निराश है।
सुश्री गागा निराश हैं।
श्रीमती गागा निराश हैं।
जेडन निराश हैं।
श्री लियू निराश हैं।
ऐसा लगता है कि मॉडल बस उन नामों की एक निश्चित सूची सीखता है जो प्रशिक्षण डेटा में एनोटेटेड हैं और कुछ टाइलिंग और संयोजनों की अनुमति देता है। दो उल्लेखनीय (एफएन) उदाहरण हैं:
- श्री और श्रीमती जैसे मजबूत नाम संकेतक अनदेखा कर रहे हैं।
- जयडन (2011 में यूएस में # 4 सबसे लोकप्रिय नाम) की पहचान नहीं की गई थी, जबकि निम्नलिखित 'स्मिथ' ("जेडन स्मिथ ..." में) की पहचान की गई थी। मुझे संदेह है कि मॉडल "सोचता है" कि वाक्य की शुरुआत में पूंजीकृत जेडन वाक्य की शुरुआत के कारण है और एनई होने के कारण नहीं है। ऑर्डर को उलटते हुए, "स्मिथ जेडन" एक संकेत के रूप में (मानते हुए 1), ओपनएनएलपी इसे दो विशिष्ट एनईएस के रूप में पहचानता है, "जॉन स्मिथ" जैसे अन्य पूर्ण नामों के विपरीत, शायद यह सुझाव दे रहा है कि 'स्मिथ' अंतिम नाम सूची में है ..
-> मैं परेशान और निराश हूं और अगर कोई मुझे एल्गोरिदम (या इसे सत्यापित करता है) पर इंगित कर सकता है तो मैं आभारी रहूंगा।
पेज। स्टैनफोर्ड और यूआईयूसी एनईआर सिस्टम दोनों सूक्ष्म मतभेदों के साथ बहुत बेहतर प्रदर्शन करते हैं जो दिलचस्प हैं लेकिन विषय बंद हैं (यह प्रश्न बहुत लंबा है)
धन्यवाद! मैं ईएम यहाँ एक गरीब नौकरी कर रहा हूँ। दिलचस्प सवाल यह है कि फीचर सेट क्या है। शब्द? पूंजीकरण? वाक्यों को विभाजित किया जा रहा है '।' इसलिए श्रीमान सहायक नहीं है? मैं व्यक्तिगत रूप से स्टैनफोर्ड एनईआर का उपयोग करता हूं और इसके साथ बहुत खुश हूं लेकिन मैं ओपनएनएलपी अजीब परिणामों के बारे में उत्सुक था। – ScienceFriction