2008-09-26 14 views
5

क्या किसी के पास एक छोटे से कॉर्पस में उपयोग के लिए दैनिक अंग्रेजी पाठ के अभिलेखागार या संग्रह कहां से ढूंढना है? मैं एक कामकाजी प्रोटोटाइप के लिए गुटेनबर्ग परियोजना पुस्तकों का उपयोग कर रहा हूं, और अधिक समकालीन भाषा को शामिल करना चाहता हूं। एक recent answer यहां अप्रत्यक्ष रूप से एक महान archive of usenet movie reviews पर इंगित किया गया, जो मेरे साथ नहीं हुआ था, और यह बहुत अच्छा है। इस विशेष कार्यक्रम के लिए तकनीकी यूजनेट अभिलेखागार या प्रोग्रामिंग मेलिंग सूचियां परिणाम झुकाएंगी और विश्लेषण करने में कठोर होंगी, लेकिन किसी भी प्रकार का सामान्य ब्लॉग टेक्स्ट, या चैट ट्रांसक्रिप्ट, या जो कुछ भी दूसरों के लिए उपयोगी हो सकता है, वह बहुत उपयोगी होगा। साथ ही, आंशिक या डाउनलोड करने योग्य शोध कॉर्पस जो कि बहुत ही चिह्नित नहीं है, या विकिपीडिया लेखों, या किसी अन्य विचार के उपयुक्त सबसेट खोजने के लिए कुछ ह्युरिस्टिक है, की बहुत सराहना की जाती है।एनएलपी: बिल्डिंग (छोटा) निगम, या "बहुत-बहुत-विशेष अंग्रेजी-भाषा टेक्स्ट फाइलें कहां प्राप्त करें?"

(बीटीडब्ल्यू, मैं एक जानबूझकर धीमी स्क्रिप्ट का उपयोग कर एक अच्छा नागरिक w/r/t डाउनलोड कर रहा हूं, जो इस तरह की सामग्री को होस्ट करने वाले सर्वरों पर मांग नहीं कर रहा है, अगर आपको किसी चीज़ को इंगित करने में नैतिक खतरा लगता है।)

अद्यतन: उपयोगकर्ता S0rin बताता है कि विकिपीडिया कोई क्रॉलिंग अनुरोध नहीं करता है और इसके बजाय this export tool प्रदान करता है। प्रोजेक्ट गुटेनबर्ग में here निर्दिष्ट नीति है, नीचे की रेखा, क्रॉल न करने का प्रयास करें, लेकिन यदि आपको यह करना है: "अनुरोध के बीच कम से कम 2 सेकंड प्रतीक्षा करने के लिए अपने रोबोट को कॉन्फ़िगर करें।"

अद्यतन 2 विकिपीडिया डंप जाने का रास्ता है, उत्तरदाताओं ने उन्हें इंगित किया। मैं यहां से अंग्रेजी संस्करण का उपयोग कर समाप्त हुआ: http://download.wikimedia.org/enwiki/20090306/, और एक आधे आकार के स्पेनिश डंप। वे साफ करने के लिए कुछ काम हैं, लेकिन इसके लायक हैं, और उनमें लिंक में बहुत उपयोगी डेटा है।


उत्तर

8
  • का उपयोग सफाई की Wikipedia dumps
    • जरूरतों बहुत
  • कर देखें कि कहीं nltk-data में कुछ भी आप
    • में मदद करता है कॉर्पोरा आम तौर पर काफी छोटे हैं
  • Wacky लोगों को कुछ मुफ्त कॉर्पोरा
    • में चिह्नित
    • आप अपने टूलकिट का उपयोग
  • Europarl नि: शुल्क है अपने स्वयं के कोष मकड़ी कर सकते हैं और के आधार काफी हर शैक्षिक मीट्रिक टन प्रणाली
    • बोली जाने वाली भाषा है , अनुवाद
  • Reuters Corpora हैं नि: शुल्क, लेकिन केवल सीडी

आप हमेशा अपना खुद का प्राप्त कर सकते हैं, लेकिन चेतावनी दी जानी चाहिए: HTML पृष्ठों को अक्सर भारी सफाई की आवश्यकता होती है, इसलिए स्वयं को आरएसएस फ़ीड तक सीमित करें।

यदि आप इसे वाणिज्यिक रूप से करते हैं, तो LDC एक व्यवहार्य विकल्प हो सकता है।

+0

यह बहुत उपयोगी है, धन्यवाद – unmounted

+0

इसके अलावा, 40 मिलियन शब्द एक आदर्श आकार है, और मैं क्या कर रहा हूं अब तक का उपयोग कर, Europarl डेटा सही है। – unmounted

+0

आरएसएस फ़ीड इतनी साफ नहीं हो सकती है कि वे सीडीएटीए का उपयोग करें, जो एचटीएमएल को फ़ीड में एम्बेड करने की अनुमति देता है। – VirtuosiMedia

0

आपने स्पष्ट लोगों को कवर किया है। एकमात्र अन्य क्षेत्र जिन्हें मैं बहुत पूरक के बारे में सोच सकता हूं:

1) समाचार लेख/ब्लॉग।

2) पत्रिकाएं बहुत सारी मुफ्त सामग्री ऑनलाइन पोस्ट कर रही हैं, और आप विषयों का एक अच्छा पार अनुभाग प्राप्त कर सकते हैं।

4

विकिपीडिया जाने के रास्ते की तरह लगता है। एक experimental Wikipedia API है जो उपयोग में हो सकता है, लेकिन मुझे कोई संकेत नहीं है कि यह कैसे काम करता है। अब तक मैंने केवल कस्टम मकड़ियों या wget के साथ विकिपीडिया को तोड़ दिया है।

फिर आप उन पृष्ठों की खोज कर सकते हैं जो आरएसएस फ़ीड में अपना पूरा लेख टेक्स्ट प्रदान करते हैं। आरएसएस, क्योंकि आपके एचटीएमएल टैग आपके रास्ते में नहीं आते हैं।

स्क्रैपिंग मेलिंग सूचियां और/या यूज़नेट के कई नुकसान हैं: आपको एल्बोनिक्स और टेकस्पीक मिल जाएगा, और यह आपके कॉर्पस को बुरी तरह झुकाएगा।

शास्त्रीय निगम पेन ट्रीबैंक और ब्रिटिश नेशनल कॉर्पस हैं, लेकिन उन्हें भुगतान किया जाता है। आप Corpora list archives पढ़ सकते हैं, या यहां तक ​​कि उन्हें इसके बारे में भी पूछ सकते हैं। शायद आपको Web as Corpus उपकरण का उपयोग कर उपयोगी डेटा मिलेगा।

मेरे पास वास्तव में निर्माण में एक छोटी परियोजना है, जो मनमाने ढंग से वेब पृष्ठों पर भाषाई प्रसंस्करण की अनुमति देती है। यह अगले कुछ हफ्तों के भीतर उपयोग के लिए तैयार होना चाहिए, लेकिन अब तक यह वास्तव में एक स्क्रैपर होने का मतलब नहीं है। लेकिन मैं इसके लिए एक मॉड्यूल लिख सकता हूं, मुझे लगता है कि कार्यक्षमता पहले से ही वहां है।

+0

बहुत बहुत धन्यवाद – unmounted

+0

बस एक नोट एक aleksandardimitrov टैग होनी चाहिए,, विकिपीडिया चाहते हैं कि लोग पृष्ठों को देखने के वेब क्रॉलर्स का उपयोग नहीं करते देखें: http://en.wikipedia.org/wiki/Wikipedia_database#Please_do_not_use_a_web_crawler वे 'निर्यात' पृष्ठों के माध्यम से रनटाइम एक्सेस प्रदान करते हैं, देखें: http://en.wikipedia.org/wiki/Special:Export –

0

विकिपीडिया डेटा में देखकर मैंने देखा कि उन्होंने some analysis on bodies of tv and movie scripts किया था। मैंने सोचा कि दिलचस्प पाठ हो सकता है लेकिन आसानी से सुलभ नहीं हो सकता है - यह पता चला है कि यह हर जगह है, और यह संरचित और अनुमानित है कि इसे साफ करना संभव हो। This site, "नेट" पर एक स्थान पर मूवी स्क्रिप्ट्स और स्क्रीनप्ले का एक गुच्छा, मददगार रूप से शीर्षक होगा, जो शायद इस धागे पर एक समान प्रश्न के साथ ठोकर खाएगा।

+0

टीवी और फिल्म स्क्रिप्ट के साथ एक समस्या यह है कि उन्हें कॉपीराइट किया जाएगा। तो आपको कॉपीराइट के बारे में सावधान रहना होगा। – Rory

1

यदि आप पैसे का भुगतान करने के इच्छुक हैं, तो आपको भाषा ट्रीबैंक जैसे भाषाई डेटा कंसोर्टियम में उपलब्ध डेटा देखना चाहिए।

1

विकिपीडिया सबसे अच्छा तरीका प्रतीत होता है। हां आपको आउटपुट को पार्स करना होगा। लेकिन विकिपीडिया की श्रेणियों के लिए धन्यवाद, आप आसानी से विभिन्न प्रकार के लेख और शब्द प्राप्त कर सकते हैं। जैसे सभी विज्ञान श्रेणियों को पार्स करके आप बहुत सारे विज्ञान शब्द प्राप्त कर सकते हैं। स्थानों के बारे में विवरण भौगोलिक नामों की ओर विषम किया जाएगा, आदि

+0

मुझे कुछ हफ्ते पहले विकिपीडिया से एक महान डेटासेट मिला, मैं जवाब अपडेट कर दूंगा। विकिमीडिया नींव कुछ अविश्वसनीय संसाधन उपलब्ध कराता है। – unmounted

0

आप कोटेशन सामग्री (सीमित रूप में) प्राप्त कर सकते हैं: http://quotationsbook.com/services/

यह सामग्री भी Freebase पर होता है।

संबंधित मुद्दे