2014-05-16 3 views
7

मैं पहली बार नाम पहचान इकाई की कोशिश कर रहा हूं। मैं उन सुविधाओं की तलाश में हूं जो अंग्रेजी नाम चुनेंगे। मैं coursera nlp course (सप्ताह तीन) और nltk book में उल्लिखित विधियों का उपयोग कर रहा हूं। दूसरे शब्दों में: मैं सुविधाओं को परिभाषित कर रहा हूं, शब्दों की विशेषताओं की पहचान कर रहा हूं और फिर उन शब्दों/सुविधाओं को एक क्लासिफायरफायर के माध्यम से चला रहा हूं जिसे मैं लेबल किए गए डेटा पर प्रशिक्षित करता हूं।अंग्रेजी नाम चुनने के लिए एनएलपी चिकित्सकों का क्या उपयोग होता है?

अंग्रेजी नाम चुनने के लिए किन सुविधाओं का उपयोग किया जाता है?

मैं कल्पना कर सकता हूं कि आप पंक्ति में दो पूंजी शब्द, या पूंजी शब्द और फिर प्रारंभिक और फिर एक पूंजी शब्द देखेंगे। (पूर्व जॉन स्मिथ या जेम्स पी स्मिथ)।

लेकिन एनईआर के लिए अन्य सुविधाओं का उपयोग क्यों किया जाता है?

उत्तर

7

कुछ सामान्य विशेषताएं: आम नाम (जॉन, एडम, आदि)

  • के लिए

    • वर्ड सूचियों आवरण
    • प्रतीक या न्यूमेरिक वर्ण (नाम आम तौर पर नहीं करते हैं)
    • व्यक्ति उपसर्ग हैं (श्रीमान, श्रीमती, आदि ...)
    • व्यक्ति पोस्टफिक्सेस (जूनियर, सीनियर, आदि ...)
    • एकल अक्षर संक्षेप (यानी, (जे) स्मिथ)।
    • आस-पास के शब्दों का विश्लेषण (आपको लगता है कि कुछ शब्दों के पास नामों को प्रदर्शित करने की उच्च संभावना है)।
    • नाम संस्थाओं पहले से मान्यता प्राप्त (अक्सर यह अन्य भागों में कोष के कुछ भागों में संदर्भ के आधार पर पूर्वोत्तर की पहचान करने के लिए आसान है, लेकिन बहुत कठिन है। तो पहले से पहचान की है, इस एनईआर की दिशा में एक उत्कृष्ट संकेत है)

    आप जिस भाषा के साथ काम कर रहे हैं उसके आधार पर और अधिक भाषा विशिष्ट सुविधाएं भी हो सकती हैं। स्पष्ट रूप से आप एक साधारण Google क्वेरी के साथ जानकारी का भरपूर धन बदल सकते हैं, मुझे सच में यकीन नहीं है कि आपने वहां क्यों नहीं बदला है। कुछ शुरुआती बिंदु तथापि:

  • 4

    मैं कुछ इसी तरह वापस स्कूल में मशीन सीखने का उपयोग किया था। मुझे लगता है कि आप पर्यवेक्षित एल्गोरिदम का उपयोग करेंगे और आप स्वतंत्र रूप से प्रत्येक शब्द को वर्गीकृत करेंगे और संयोजन में शब्दों को वर्गीकृत नहीं करेंगे। उस स्थिति में मैं आपके द्वारा वर्णित शब्दों की तरह कुछ विशेषताओं का चयन करूंगा (यदि शब्द एक पूंजी अक्षर से शुरू होता है, यदि शब्द संक्षेप है) लेकिन मैं कुछ और सुविधाएं जोड़ूंगा जैसे कि पिछले या अगले शब्द भी पूंजी पत्र से शुरू करें, या यदि वे संक्षेप में हैं। इस तरह आप कुछ संदर्भ जोड़ सकते हैं और अपनी मूल आजादी धारणा से संबंधित समस्याओं को दूर कर सकते हैं।

    यदि आप here देखना चाहते हैं। मशीन लर्निंग सेक्शन में आप कुछ और जानकारी और उदाहरण पा सकते हैं (समस्या थोड़ा अलग है लेकिन विधि समान होनी चाहिए)।

    जो भी विशेषताएं आप चुनते हैं, वह महत्वपूर्ण है कि आप उनकी प्रासंगिकता का मूल्यांकन करने के लिए कुछ उपाय का उपयोग करें और संभवतः उन्हें उपयुक्त लोगों को कम से कम फिट करने से बचें।उन उपायों में से एक जिसका उपयोग आप उनका मूल्यांकन करने के लिए कर सकते हैं gain ratio है लेकिन कई और हैं। Here आप सुविधा निष्कर्षण के बारे में कुछ बुनियादी जानकारी पा सकते हैं।

    उम्मीद है कि यह मदद करता है!

    संबंधित मुद्दे