2010-08-02 2 views
5

मैं लिख रहा हूं कि एक प्रोग्राम में कुछ पाठ विश्लेषण करने के लिए देख रहा हूँ। मैं विकिपीडिया डंप (download.wikimedia.com) में प्रदान की गई चीज़ों के समान अपने कच्चे रूप में पाठ के वैकल्पिक स्रोतों की तलाश में हूं।मुझे वेब पर कच्चे टेक्स्ट का डंप कहां मिल सकता है?

मैं नहीं बल्कि .. वेबसाइटों को क्रॉल की मुसीबत के माध्यम से जाने के लिए, निकालने, एचटीएमएल पार्स करने का प्रयास पाठ आदि की जरूरत नहीं होगी

उत्तर

7

पाठ किस तरह आप के लिए देख रहे हैं?

Project Gutenberg पर उपलब्ध .txt प्रारूप में कई निःशुल्क ई-पुस्तकें (कथा और गैर-कथा) हैं।

उनके पास large DVD images भी डाउनलोड के लिए उपलब्ध पुस्तकों से भरा है।

+0

+1 मैं पीजी पोस्ट करने के लिए यहां आया था। – Joe

3

NLTKmany text corpora पहुंचने का एक आसान अजगर एपीआई, गुटेनबर्ग, रायटर, शेक्सपियर और अन्य सहित प्रदान करता है में ebooks के भारी मात्रा में है।

>>> from nltk.corpus import brown 
>>> brown.words() 
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...] 
संबंधित मुद्दे