2012-02-07 14 views
13

संभव डुप्लिकेट:
Looking for dataset to test FULLTEXT style searches onमुझे बड़ी मात्रा में टेक्स्ट फाइल कहां मिल सकती है?

मैं हाल ही में डाटा माइनिंग की एक परियोजना है, जिसके लिए मैं परीक्षण के लिए सादा पाठ, 100 GB की जरूरत पर हूँ ... मैं खोज की थक गया हूँ पूरे दिन नेट। कोई कृपया लिंक प्रदान करके मेरी मदद करें जहां मैं ऐसी टेक्स्ट फाइलें डाउनलोड कर सकता हूं। धन्यवाद।

+1

आप डाउनलोड 100GB पाठ फ़ाइल कोशिश कर रहे हैं। .... – vikky

+0

हाँ ..! वास्तव में 100 जीबी से अधिक .. 1TB हमारा लक्ष्य है ..! – Sri

+0

एक 7zip फ़ाइल में पूरे गुटेनबर्ग प्राप्त करें: http://www.gutenberg-tar.com/ – JoeRocc

उत्तर

8

आप किस प्रकार का टेक्स्ट खोज रहे हैं? वार्तालाप, लेख, किताबें - या सब कुछ का एक अच्छा प्रसार? http://www.gutenberg.org/

विकिपीडिया भी आप लेख का एक संग्रह डाउनलोड करने के लिए अनुमति देता है::

प्रोजेक्ट गुटेनबर्ग एक अच्छी शुरुआत हो सकती है http://en.wikipedia.org/wiki/Wikipedia:Database_download

+0

हाँ ... पाठ फ़ाइलों की anykind ठीक है ... हाँ .. बातचीत, लेख, वृत्तचित्र, उपन्यास .. आदि ...! – Sri

+0

प्रोजेक्ट गुटेनबर्ग शायद आपकी सबसे अच्छी शर्त होगी, वहां 38,000 से अधिक मुफ्त पुस्तकें हैं। उनमें से ज्यादातर सादे पाठ फ़ाइलों के रूप में डाउनलोड किया जा सकता है। – Jordan

+0

क्या कोई बेहतर तरीका है ... प्रत्येक पाठ फ़ाइल को दूसरे के बाद डाउनलोड करने के बजाय .. क्या मुझे एक ज़िप फ़ाइल मिल सकती है जिसका आकार 1 जीबी के क्रम का है ?? – Sri

3

आप का उपयोग करना चाहिए http://dumps.wikimedia.org/

+1

क्या आप कृपया मुझे एक विशिष्ट लिंक प्रदान कर सकते हैं ..! n मैंने लगभग 230 जीबी xml प्रारूप की एक ज़िप फ़ाइल देखी है। लिंक है .. http://en.wikipedia.org/wiki/Wikipedia:Database_download .. डाउनलोड करने से पहले मैं जानना चाहता हूं कि इसके अंदर वास्तव में क्या मौजूद है .. ps: हम टेक्स्ट फाइलों की तलाश में हैं जो कुछ सार्थक हैं पाठ ... बातचीत, वृत्तचित्र, आदि की तरह ..! – Sri

+0

यह वास्तव में विकिमीडिया की डंप फ़ाइल की डंप फ़ाइल है। और आम तौर पर इसमें xml प्रारूप में विकिपीडिया आलेख होता है। इसलिए आप इसे देख सकते हैं। मुझे लगता है कि यह आपके लिए उपयोगी होना चाहिए। – vikky

संबंधित मुद्दे