2012-09-05 16 views
9

क्या यह पहचानने का कोई तरीका है कि एक शब्द किसी व्यक्ति का नाम होने की संभावना नहीं है?किसी व्यक्ति के नाम की पहचान करना एक शब्दकोष शब्द

तो अगर मुझे "समझने" शब्द दिखाई देता है तो मुझे 0.01 की संभावना मिल जाएगी, जबकि "जॉनसन" शब्द 0.9 9 की संभावना वापस करेगा, जबकि स्मिथ जैसे शब्द 0.75 और ऐप्पल 0.15 जैसे शब्द लौटाएंगे।

क्या ऐसा करने का कोई तरीका है?

लक्ष्य है, यदि किसी व्यक्ति द्वारा, कहते हैं कि Charles Darwin galapagos, खोज इंजन का अनुमान लगाता है कि यह Charles और Darwin और शीर्षक और galapagos के लिए सार क्षेत्रों के लिए लेखक क्षेत्र खोज करनी चाहिए।

+0

ज्ञात नामों की एक बड़ी सूची के खिलाफ नाम की जांच कर रहे हैं? – Shahbaz

+0

ठीक है, ऐसा करने के लिए एक तरीका (जो सभी मामलों के लिए सच नहीं है) यह जांचना होगा कि नाम वास्तव में एक शब्दकोश में है या नहीं। कारण, ज्यादातर बार एक नाम का अर्थ नहीं है '(आपके चार्ल्स डार्विन)'। यदि ऐसा नहीं होता है तो आप यह निष्कर्ष निकाल सकते हैं कि इसका नाम है। यदि ऐसा होता है, तो मुझे आगे बढ़ने के बारे में निश्चित नहीं है। – noMAD

+0

@noMAD: यह दृष्टिकोण स्थानों (गैलापागोस) के नाम की पहचान करने में विफल रहेगा, और कहेंगे कि वे लोगों का नाम हैं। – amit

उत्तर

7

मेरे त्वरित हैक इस होगा:

लोकप्रियता के क्रम में नामों की जनगणना ब्यूरो से सूची प्राप्त करें, यह स्वतंत्र रूप से उपलब्ध है। प्रत्येक नाम को सामान्यीकृत लोकप्रियता स्कोर दें (1.0 = सबसे लोकप्रिय, 0.0 = कम से कम)।

फिर, एक ओपनसोर्स शब्दकोश प्राप्त करें, और प्रत्येक शब्द के लिए आवृत्ति स्कोर को एकत्र करने के लिए कुछ शोध करें। आप एक here, at wiktionary पा सकते हैं। प्रत्येक शब्द को एक लोकप्रियता स्कोर, 1.0 से 0.0 असाइन करें। सुविधाजनक बात यह है कि यदि आप आवृत्ति सूची पर कोई शब्द नहीं पा रहे हैं, तो आपको लगता है कि यह एक असामान्य शब्द है।

दोनों सूचियों पर एक शब्द की तलाश करें। यदि यह सिर्फ एक या दूसरे पर है, तो आप कर चुके हैं। यदि यह दोनों पर है, तो भारित संभाव्यता की गणना करने के लिए सूत्र का उपयोग करें ...कुछ (नाम लोकप्रियता)/(नाम लोकप्रियता + अन्य लोकप्रियता)। यदि यह किसी भी सूची में नहीं है, तो शायद यह एक नाम है।

+0

अच्छा शॉर्टकट्स। +1 – HappyTimeGopher

+0

+1 - यह बहुत अधिक उपयोगी बुनियादी शब्दकोश अनुसंधान तुलना मैं के बारे में सोच रहा था (और मान लिया बाहर रखा गया था) – Krease

+0

एक नाम हो सकता है की तुलना में, एक टाइपो हो सकता है, एक विदेशी शब्द या एक उचित नाम लेकिन के नहीं किया जा सका एक व्यक्ति। – Qnan

0

केवल शब्द (या शब्दों की श्रृंखला जो वाक्य नहीं बनाते हैं) के आधार पर, मैं नहीं कहूंगा, या कम से कम ऐसा नहीं जो "ज्ञात शब्द शब्दकोश" लुकअप से अधिक जानकारी प्रदान करने में सक्षम होगा ।

विभिन्न स्थानों में अलग-अलग संभावनाएं भी होंगी, और यह वाक्य में शब्द की स्थिति और दूसरे शब्दों को इंगित करता है जो सिग्नल करते हैं कि यह एक नाम या कुछ अन्य संज्ञा/क्रिया है।

उदाहरण के लिए, "शब्द" एक हो सकता है:

  1. संज्ञा - "पृष्ठ पर शब्द अस्पष्ट है"
  2. क्रिया - "मैं शब्द मेरे वाक्य ध्यान से"
  3. विशेषण - "मुझे शब्द गेम पसंद हैं"
  4. उचित नाम - "मेरा मित्र शब्द मेरे लिए अच्छा है"

यह सब एक वाक्य में संदर्भ और स्थिति पर निर्भर करता है - और भाषा से भाषा में इस परिवर्तन के नियम। इसके अलावा, नए नाम नियमित रूप से आविष्कार किए जाते हैं - अगले वर्ष most popular baby name "लिआम" के बजाय "गैलापागोस" हो सकता है।

5

प्राकृतिक भाषा संसाधन में एक संबंधित कार्य वर्णित निकाय को मान्यता और लोगों, संगठनों, स्थानों के नाम से संबंधित है, आदि के रूप में जाना जाता है

अधिकांश इस समस्या को हल प्रकृति में सांख्यिकीय हैं और दोनों संदर्भ का उपयोग करने के लिए डिज़ाइन मॉडल और उनकी भविष्यवाणियों में पूर्व ज्ञान। कई ओपन सोर्स कार्यान्वयन हैं जिनका उपयोग कर सकते हैं, उदाहरण के लिए Stanford NER, online demo देखें।

संबंधित मुद्दे