में इकाई पहचान नाम दिया है, मैं डच टेक्स्ट से नामित इकाइयों को निकालने की कोशिश कर रहा हूं। मैंने conll2002 डच कॉर्पस पर एक टैगर और एक चंकर को प्रशिक्षित करने के लिए nltk-trainer का उपयोग किया। हालांकि, चंकर से पार्स विधि किसी नामित संस्थाओं का पता नहीं लगा रही है।एनएलटीके ने डच
str = 'Christiane heeft een lam.'
tagger = nltk.data.load('taggers/dutch.pickle')
chunker = nltk.data.load('chunkers/dutch.pickle')
str_tags = tagger.tag(nltk.word_tokenize(str))
print str_tags
str_chunks = chunker.parse(str_tags)
print str_chunks
और इस कार्यक्रम का उत्पादन:
[('Christiane', u'N'), ('heeft', u'V'), ('een', u'Art'), ('lam', u'Adj'), ('.', u'Punc')]
(S Christiane/N heeft/V een/Art lam/Adj ./Punc)
मैं क्रिस्टियन उम्मीद कर रहा था एक निकाय के रूप में पता लगाया जा यहाँ मेरी कोड है। कोई मदद?
क्या होता है जब वाक्य के बीच में "ईसाई" दिखाई देता है? –
@ लार्समैन कोई भी संस्थाएं नहीं। मैंने प्रशिक्षण कॉर्पस से एक वाक्य के साथ भी कोशिश की, लेकिन कोई भाग्य नहीं। मैंने conll2002 corpus (ned.train) – user1491915
पर train_chunker.py का उपयोग किया है क्या आप दिखा सकते हैं कि आपने train_chunker.py का उपयोग कैसे किया? Http://text-processing.com/demo/tag/ पर मेरा डेमो ईसाई को पहचानता है, बेशक मैंने conll2002 पर train_chunker का उपयोग किया, इसलिए प्रशिक्षण तर्कों में एक अंतर होना चाहिए। – Jacob