5

मैं एक जावा लाइब्रेरी की तलाश में हूं जो कस्टम नियंत्रित शब्दावली के साथ नामांकित इकाई पहचान (एनईआर) कर सकता है, पहले लेबलिंग प्रशिक्षण डेटा की आवश्यकता के बिना। मैंने कुछ एसई पर खोज की, लेकिन ज्यादातर सवाल बल्कि विशिष्ट हैं।जावा में क्रॉसलिंक-सुझावों के लिए कस्टम नियंत्रित शब्दावली के साथ असुरक्षित नामांकित इकाई पहचान (एनईआर)

पर विचार करें निम्नलिखित यूज-केस:

  • एक संपादक एक सीएमएस (लगभग 500 शब्दों) में लेख inputting है।
  • टेक्स्ट में एक विशिष्ट डोमेन की इकाइयों में संदर्भ (सादे पाठ में) हो सकते हैं। उदाहरण के लिए:
    • ब्याज, बार, रेस्तरां, साथ ही पड़ोस की तरह के अंक के नाम, आदि
  • इन संस्थाओं के एक नियंत्रित शब्दावली मौजूद हैं (5.000 इकाइयों के बारे में)।
    • मैं कल्पना एक इकाई पाठ खत्म करने के बाद शब्दावली
  • में एक -tuple होने के लिए, उपयोगकर्ता दस्तावेज़ को बचाने के लिए सक्षम होना चाहिए।
  • यह इकाई के नाम की तुलना करके शब्दावली के खिलाफ पाठ के टुकड़े को स्कैन करने के लिए वर्कफ़्लो को ट्रिगर करता है। 100% मैच होने की आवश्यकता नहीं है: जारो-विंकलर पर 97% या जो भी (मैं अल्गो के एनईआर उपयोगों से परिचित नहीं हूं) पर्याप्त हो सकता है, मुझे इसे कॉन्फ़िगर करने योग्य होने की आवश्यकता है।
  • हिट नियंत्रक सर्वर-साइड पर वापस आये जाते हैं। यह बदले में जेएसओएन को क्लाइंट के साथ क्लाइंट को लौटाता है, जिसे संपादक को सुझाए गए क्रॉसलिंक्स के रूप में दर्शाया जाता है।

आदर्श रूप से, मैं एक ऐसी परियोजना की तलाश में हूं जो एनआरई का उपयोग करता है ताकि सीएमएस-पर्यावरण के भीतर क्रिस्टलिंक को पिगबैक पर सुझाव दिया जा सके। (मुझे यकीन है कि वर्डप्रेस के लिए प्लगइन्स उदाहरण के लिए मौजूद हैं) इतना सुनिश्चित नहीं है कि जावा में कुछ समान है।

नियंत्रित कस्टम शब्दावली के साथ काम करने वाले एनआरई-पुस्तकालयों के सभी अन्य सामान्य संकेतक भी आपका स्वागत है।

उत्तर

1

अनिश्चित अगर इन उपयोगी हो सकता है: http://www-nlp.stanford.edu/software/CRF-NER.shtml http://cogcomp.cs.illinois.edu/page/software

+0

जहां तक ​​मेरा बता सकते हैं, जो केवल प्रसिद्ध/अच्छी तरह से ज्ञात लोगों के नाम कर सकते हैं। "जॉर्ज वाशिंगटन" एक व्यक्ति के रूप में दिखाई देता है, लेकिन मेरा नाम नहीं था। – robr

संबंधित मुद्दे