मैं टेक्स्ट फ़ाइल से अपना खुद का एनएलटीके टेक्स्ट कैसे बना सकता हूं?

मैं एक साहित्यिक छात्र हूं, और मैं प्राकृतिक भाषा प्रसंस्करण (nltk.org/book) में O'Reilly पुस्तक के माध्यम से जा रहा हूं। यह अविश्वसनीय रूप से उपयोगी लग रहा है। मैंने समन्वय की तरह अध्याय 1 में सभी उदाहरण ग्रंथों और उदाहरण कार्यों के साथ खेला है। अब मुझे पता है कि मोबी डिक शब्द "व्हेल" का कितनी बार उपयोग करता है। समस्या यह है कि, मैं अपने स्वयं के ग्रंथों में से एक पर इन गणनाओं को कैसे करना है, यह नहीं समझ सकता। मुझे अपने स्वयं के निगम (O'Reilly पुस्तक के Ch। 2) को बनाने के बारे में जानकारी मिली है, लेकिन मुझे नहीं लगता कि यह वही है जो मैं करना चाहता हूं। दूसरे शब्दों में, मैंमैं टेक्स्ट फ़ाइल से अपना खुद का एनएलटीके टेक्स्ट कैसे बना सकता हूं?

import nltk 
text1.concordance('yellow')

करते हैं और स्थानों पर जहां शब्द 'पीला' अपने पाठ में प्रयोग किया जाता है प्राप्त करने में सक्षम होना चाहता हूँ। फिलहाल मैं इसे पाठ ग्रंथों के साथ कर सकता हूं, लेकिन मेरा खुद नहीं।

मैं अजगर और प्रोग्रामिंग के लिए बहुत नया हूं, और इसलिए यह सामान बहुत रोमांचक है, लेकिन बहुत भ्रमित है।

स्रोत

2012-05-06 Jono

मुझे जवाब मिला। शर्म की बात है। या भयानक।

च। से। 3:

f=open('my-file.txt','rU') 
raw=f.read() 
tokens = nltk.word_tokenize(raw) 
text = nltk.Text(tokens)

चाल है।

स्रोत

2012-05-06 00:22:14 Jono

बहुत बढ़िया। मैं बस इस सवाल का जवाब देने की कोशिश कर रहा था; बहुत खुश मैं आपके (स्वयं) जवाब पर ठोकर खाई। - एक अन्य साहित्य विद्वान – cforster

इस काम के लिए, मुझे पहले "पंकट" डाउनलोड करने की आवश्यकता थी: nltk.download ('punkt') –

आरयू क्या करता है? इसे मिला: f = open ('myfile.txt', 'rU') # आरयू का मतलब है "पढ़ना", और लाइन अंतराल – ProfVersaggi

एकाधिक फ़ाइलों का एक संरचित आयात के लिए:

from nltk.corpus import PlaintextCorpusReader 

# RegEx or list of file names 
files = ".*\.txt" 

corpus0 = PlaintextCorpusReader("/path/", files) 
corpus = nltk.Text(corpus0.words())

देखें: NLTK 3 book/अनुभाग 1.9

स्रोत

2015-03-05 14:17:44 Raffael

को संभालता है, मुझे यह देखने में खुशी हुई, क्योंकि पिछली विधि (ऊपर) काम नहीं कर रही थी मेरे लिए। हां, एक और त्रुटि संदेश। यह PlaintextCorpusReader से जुड़ी रेखा को पसंद नहीं आया: यूनिकोडडेकोड एरर: 'utf8' कोडेक स्थिति 50 में बाइट 0xe8 को डीकोड नहीं कर सकता: अमान्य निरंतर बाइट –

मैं टेक्स्ट फ़ाइल से अपना खुद का एनएलटीके टेक्स्ट कैसे बना सकता हूं?

उत्तर

संबंधित मुद्दे