एनएलटीके का डिफ़ॉल्ट टोकननाइज़र, nltk.word_tokenizer, चेन दो टोकनकार, एक वाक्य टोकननाइज़र और फिर एक शब्द टोकनेज़र जो वाक्य पर चलता है। यह बॉक्स से बाहर एक बहुत अच्छी नौकरी करता है।स्ट्रिंग के बजाए स्पैन प्राप्त करने के लिए मैं एनएलटीके के डिफ़ॉल्ट टोकनेज़र का उपयोग कैसे करूं?
>>> nltk.word_tokenize("(Dr. Edwards is my friend.)")
['(', 'Dr.', 'Edwards', 'is', 'my', 'friend', '.', ')']
मैं छोड़कर यह बजाय मूल स्ट्रिंग में ऑफसेट की tuples लौट स्ट्रिंग टोकन की है करने के लिए यह एक ही एल्गोरिथ्म का उपयोग करना चाहते हैं।
ऑफसेट द्वारा मेरा मतलब 2-प्लेस है जो मूल स्ट्रिंग में इंडेक्स के रूप में कार्य कर सकता है। [0: 1] क्योंकि रों उदाहरण यहाँ के लिए मैं
>>> s = "(Dr. Edwards is my friend.)"
>>> s.token_spans()
[(0,1), (1,4), (5,12), (13,15), (16,18), (19,25), (25,26), (26,27)]
होगा "(" है, रों [1: 4]। "डॉक्टर" इसके आगे वहाँ एक भी NLTK है और
है फोन है कि इस करता है, या मैं अपने ही ऑफसेट गणित लिखने के लिए है?
"ऑफ़सेट" से आपका क्या मतलब है। शायद सूची में स्ट्रिंग इंडेक्स? i.e: 'डॉ' इंडेक्स 1 है .. – felipsmartins
ऑफसेट द्वारा मेरा मतलब क्या है इसका स्पष्टीकरण करने के लिए संपादित किया गया। –