2015-03-29 11 views
11

जब मैं टेक्स्ट छीनता हूं, तो मुझे NN, VBD, IN, DT, NNS, RB जैसे आउटपुट में बहुत सारे कोड मिलते हैं। क्या कोई ऐसी सूची है जहां कहीं मुझे दस्तावेज किया गया है जो मुझे इसका अर्थ बताता है? मैंने nltk chunk codenltk chunk grammarnltk chunk tokens googling की कोशिश की है।डीटी एनएनएस आरबी में एनएन वीबीडी का अर्थ एनएलटीके में क्या है?

लेकिन मुझे कोई दस्तावेज नहीं मिल रहा है जो बताता है कि इन कोडों का क्या अर्थ है।

उत्तर

9

जो टैग आप देखते हैं वे भाग का परिणाम नहीं हैं लेकिन पीओएस टैगिंग जो चंकिंग से पहले होती है। यह पेन Treebank tagset है, https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

>>> from nltk import word_tokenize, pos_tag, ne_chunk 
>>> sent = "This is a Foo Bar sentence." 
# POS tag. 
>>> nltk.pos_tag(word_tokenize(sent)) 
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')] 
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent)) 
# Chunk. 
>>> ne_chunk(tagged_sent) 
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')]) 

हिस्सा chunked आउटपुट भीतर उपतरू के लिए देखो प्राप्त करने के लिए देखते हैं। उपरोक्त आउटपुट से, Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]) खंड को इंगित करता है।

यह ट्यूटोरियल साइट एनएलटीके, http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf में खंडन प्रक्रिया को समझाने में बहुत उपयोगी है।

आधिकारिक दस्तावेज के लिए, http://www.nltk.org/howto/chunk.html

0

ऊपर Alvas ने कहा के रूप में, इन टैग हिस्सा के- भाषण जो बताता है एक शब्द/वाक्यांश संज्ञा पद, Adverb, निर्धारक है या नहीं, क्रिया आदि ...

हैं

यहां POS Tag विवरण हैं जिनका आप उल्लेख कर सकते हैं।

Chunking recovers the phrased from the Part of speech tags 

आप बेडौल के बारे में के लिए पढ़ने के लिए इस link उल्लेख कर सकते हैं।

संबंधित मुद्दे