मेरे पास नीचे की तरह एक वेक्टर है और यह निर्धारित करना चाहते हैं कि सूची में कौन से तत्व मानव नाम हैं और जो नहीं हैं। मुझे मानवरूप पैकेज मिला, जो नामों को प्रारूपित करता है लेकिन दुर्भाग्य से यह निर्धारित नहीं करता है कि एक स्ट्रिंग वास्तव में एक नाम है या नहीं। मुझे इकाई निष्कर्षण के लिए कुछ पैकेज भी मिलते हैं, लेकिन उन्हें एक ही नाम के बजाय भाग-के-भाषण टैगिंग के लिए वास्तविक पाठ की आवश्यकता होती है।स्ट्रिंग्स की सूची से, पहचानें कि कौन से नाम मानव हैं और
उदाहरण
pkd.names.quotes <- c("Mr. Rick Deckard", # Name
"Do Androids Dream of Electric Sheep", # Not a name
"Roy Batty", # Name
"How much is an electric ostrich?", # Not a name
"My schedule for today lists a six-hour self-accusatory depression.", # Not a name
"Upon him the contempt of three planets descended.", # Not a name
"J.F. Sebastian", # Name
"Harry Bryant", # Name
"goat class", # Not a name
"Holden, Dave", # Name
"Leon Kowalski", # Name
"Dr. Eldon Tyrell") # Name
मेरा दोस्त इलेक्ट्रिक शुतुरमुर्ग यह देखने के लिए बहुत परेशान होगा कि उसका नाम वास्तव में एक नाम नहीं है। तो आपको यह जानने की आवश्यकता होगी कि वास्तव में नाम क्या निर्धारित करता है, सही? लेकिन आजकल लोग अपने बच्चों को कुछ भी (अमेरिका में वैसे भी) नाम देते हैं। उदाहरण के लिए कन्या वेस्ट के बच्चे को लें। उसका नाम उत्तर पश्चिम है। माना जाता है, कन्या एक बेवकूफ है, यह अभी भी सच है। वह नाम परीक्षण कैसे पास करेगा? –
हाहा, काफी मेला। मुझे लगता है कि मुझे कन्या के बच्चों के नाम गलत लगेगा। हालांकि यह ठीक है, कुछ त्रुटि स्वीकार्य है। मैं केवल स्ट्रिंग लम्बाई, रिक्त स्थान की संख्या और पूंजीकरण पर भरोसा करने से बेहतर करने की उम्मीद कर रहा हूं। –
स्टैनफोर्ड नामांकित इकाई पहचान "मॉड्यूल" आर https://rpubs.com/lmullen/nlp-chapter के लिए उपलब्ध है एनएलपी परिचय है। यह http://nlp.stanford.edu/software/CRF-NER.shtml जावा lib के लिए आधिकारिक स्रोत है और इससे समाधान तैयार करना संभव हो सकता है। – hrbrmstr