2009-12-14 8 views
7

मैं कुछ कॉर्पोरा मैं NLTK इंस्टालर के साथ स्थापित लोड करने के लिए कोशिश कर रहा हूँ, लेकिन मैं एक मिल गया:एनएलटीके - पाइथन के भीतर से कौन सा निगम स्थापित किया गया है यह जानने के लिए कैसे?

>>> from nltk.corpus import machado 
     Traceback (most recent call last): 
     File "<stdin>", line 1, in <module> 
     ImportError: cannot import name machado 

लेकिन डाउनलोड प्रबंधक (nltk.download()) में पैकेज मचाडो स्थापित के रूप में चिह्नित किया गया है और मैं एक nltk_data/corpus/machado फ़ोल्डर है।

मैं पाइथन इंटिप्टर के अंदर से कैसे देख सकता हूं स्थापित निगम क्या है?

साथ ही, इस पैकेज के साथ काम करने के लिए मुझे किस पैकेज को इंस्टॉल करना चाहिए? http://nltk.googlecode.com/svn/trunk/doc/howto/portuguese_en.html

मुझे मॉड्यूल nltk.examples मॉड्यूल नहीं मिल रहा है।

+0

मेरा/home/myUser/nltk_data पर था –

उत्तर

9

import nltk.corpus 
dir(nltk.corpus) 

और इस बिंदु पर, यह शायद आप कुछ बताया के बारे में __LazyModule__... तो फिर dir(nltk.corpus) कर प्रयास करें।

यदि यह काम नहीं करता है, तो iPython में टैब-पूर्णता आज़माएं।

3

एनएलटीके में एक पैकेज, nltk.corpus शामिल है, जिसमें कॉर्पस पाठकों (जैसे PlainTextCorpusReader) की परिभाषाएं शामिल हैं। इस पैकेज में निगम के लिए प्री-डिफ़ाइंड एक्सेस पॉइंट्स की एक बड़ी सूची भी शामिल है जिसे nltk.downloader() के साथ डाउनलोड किया जा सकता है। ये एक्सेस पॉइंट (उदा।, nltk.corpus.brown) परिभाषित किए गए हैं कि संबंधित कॉर्पस डाउनलोड किया गया है या नहीं।

  1. देखने के लिए जो पहुंच बिंदुओं NLTK में परिभाषित कर रहे हैं, का उपयोग dir(nltk.corpus) (import nltk के बाद)।

  2. जो कॉर्पोरा आप अपने nltk_data क्षेत्र में है देखने के लिए, इस प्रयास करें:

    import os 
    import nltk 
    print(os.listdir(nltk.data.find("corpora"))) 
    

    यह सिर्फ फ़ोल्डर nltk_data/corpora की सामग्री के साथ एक सूची उदासीनता। आप इसे वहां से ले जा सकते हैं।

  3. तो आप nltk_data/corpora क्षेत्र में अपने स्वयं के कोष स्थापित किया है और NLTK इसके बारे में पता नहीं है, आप अपने आप को उचित पाठक अप पर सक्रिय होने चाहिए। उदाहरण के लिए, अगर यह corpora/mycorpus में एक प्लेन टेक्स्ट कोष है और सभी फ़ाइलों .txt में खत्म हो, तो आप इसे इस तरह से करना चाहते हैं:

    import nltk 
    from nltk.corpus import PlaintextCorpusReader 
    
    mypath = nltk.data.find("corpora/mycorpus") 
    mycorpus = PlaintextCorpusReader(mypath, r".*\.txt$") 
    

    लेकिन उस मामले में आप इसे सीधे करने के लिए कहीं भी अपने स्वयं के कोष, और बिंदु mypath डाल सकता है एनएलटीके को खोजने के लिए कहने के बजाय।

संबंधित मुद्दे

 संबंधित मुद्दे