2012-05-06 10 views
24

मैं एक साहित्यिक छात्र हूं, और मैं प्राकृतिक भाषा प्रसंस्करण (nltk.org/book) में O'Reilly पुस्तक के माध्यम से जा रहा हूं। यह अविश्वसनीय रूप से उपयोगी लग रहा है। मैंने समन्वय की तरह अध्याय 1 में सभी उदाहरण ग्रंथों और उदाहरण कार्यों के साथ खेला है। अब मुझे पता है कि मोबी डिक शब्द "व्हेल" का कितनी बार उपयोग करता है। समस्या यह है कि, मैं अपने स्वयं के ग्रंथों में से एक पर इन गणनाओं को कैसे करना है, यह नहीं समझ सकता। मुझे अपने स्वयं के निगम (O'Reilly पुस्तक के Ch। 2) को बनाने के बारे में जानकारी मिली है, लेकिन मुझे नहीं लगता कि यह वही है जो मैं करना चाहता हूं। दूसरे शब्दों में, मैंमैं टेक्स्ट फ़ाइल से अपना खुद का एनएलटीके टेक्स्ट कैसे बना सकता हूं?

import nltk 
text1.concordance('yellow') 

करते हैं और स्थानों पर जहां शब्द 'पीला' अपने पाठ में प्रयोग किया जाता है प्राप्त करने में सक्षम होना चाहता हूँ। फिलहाल मैं इसे पाठ ग्रंथों के साथ कर सकता हूं, लेकिन मेरा खुद नहीं।

मैं अजगर और प्रोग्रामिंग के लिए बहुत नया हूं, और इसलिए यह सामान बहुत रोमांचक है, लेकिन बहुत भ्रमित है।

उत्तर

43

मुझे जवाब मिला। शर्म की बात है। या भयानक।

च। से। 3:

f=open('my-file.txt','rU') 
raw=f.read() 
tokens = nltk.word_tokenize(raw) 
text = nltk.Text(tokens) 

चाल है।

+4

बहुत बढ़िया। मैं बस इस सवाल का जवाब देने की कोशिश कर रहा था; बहुत खुश मैं आपके (स्वयं) जवाब पर ठोकर खाई। - एक अन्य साहित्य विद्वान – cforster

+0

इस काम के लिए, मुझे पहले "पंकट" डाउनलोड करने की आवश्यकता थी: nltk.download ('punkt') –

+0

आरयू क्या करता है? इसे मिला: f = open ('myfile.txt', 'rU') # आरयू का मतलब है "पढ़ना", और लाइन अंतराल – ProfVersaggi

13

एकाधिक फ़ाइलों का एक संरचित आयात के लिए:

from nltk.corpus import PlaintextCorpusReader 

# RegEx or list of file names 
files = ".*\.txt" 

corpus0 = PlaintextCorpusReader("/path/", files) 
corpus = nltk.Text(corpus0.words()) 

देखें: NLTK 3 book/अनुभाग 1.9

+0

को संभालता है, मुझे यह देखने में खुशी हुई, क्योंकि पिछली विधि (ऊपर) काम नहीं कर रही थी मेरे लिए। हां, एक और त्रुटि संदेश। यह PlaintextCorpusReader से जुड़ी रेखा को पसंद नहीं आया: यूनिकोडडेकोड एरर: 'utf8' कोडेक स्थिति 50 में बाइट 0xe8 को डीकोड नहीं कर सकता: अमान्य निरंतर बाइट –

संबंधित मुद्दे