मैं अंतर्निहित विधि का उपयोग करके टेक्स्ट में एनएलटीके के साथ कोलाकेशन खोजने की कोशिश कर रहा हूं।पायथन nltk: डॉट से अलग शब्दों के बिना कोलोशेशन खोजें
अब मैं निम्न उदाहरण पाठ हो रहा है (परीक्षण और foo एक दूसरे के पीछे है, लेकिन वहाँ के बीच में एक वाक्य सीमा है):
content_part = """test. foo 0 test. foo 1 test.
foo 2 test. foo 3 test. foo 4 test. foo 5"""
tokenization और collocations()
से परिणाम निम्नानुसार है:
print nltk.word_tokenize(content_part)
# ['test.', 'foo', 'my', 'test.', 'foo', '1', 'test.',
# 'foo', '2', 'test.', 'foo', '3', 'test.', 'foo', '4', 'test.', 'foo', '5']
print nltk.Text(nltk.word_tokenize(content_part)).collocations()
# test. foo
कैसे कर सकते हैं मेरी tokenization में डॉट
- : मैं से NLTK को रोकने?
तो इस उदाहरण में यह बिल्कुल किसी भी मोरचा मुद्रित नहीं करना चाहिए, लेकिन मुझे लगता है कि आप और अधिक जटिल ग्रंथों जहां भी वाक्य भीतर collocations हैं कल्पना कर सकते हैं।
मुझे लगता है कि कर सकते हैं कि मैं segmenter पंक्ट वाक्य उपयोग करने की आवश्यकता है, लेकिन फिर मैं नहीं जानता कि कैसे उन्हें एक साथ फिर से nltk साथ collocations खोजने के लिए डाल करने के लिए (collocation()
अपने आप को सिर्फ गिनती सामान की तुलना में अधिक शक्तिशाली हो रहा है)।