2010-07-25 12 views
9

मैं नामांकित इकाई पहचान के लिए प्रशिक्षित करने के लिए एक सिस्टम के लिए एक मुफ्त टैग की गई कॉर्पस की तलाश में हूं। मुझे लगता है कि ज्यादातर (जैसे न्यूयॉर्क टाइम्स एक) महंगे हैं और खुले नहीं हैं। क्या कोई मदद कर सकता है?नामांकित इकाई पहचान के लिए नि: शुल्क टैग की गई कॉर्पस

+0

http://pendata.stackexchange.com/q/7250/1652 (जहां यह बंद नहीं है) पर एक ही सवाल पूछा गया था –

उत्तर

1

dbPediaखुला और

dbPedia विकिपीडिया से बनाया गया है और यह एक बहुत बड़ा कोष है। सभी dbPedia titles dump पर rdfs:label से जुड़े ट्रिपल पर ल्यूसीन इंडेक्स बनाएं।

+2

अन्य उत्तरों में से एक के रूप में, डीबीपीडिया एक टैग किए गए कॉर्पस नहीं है। –

+0

2012 में (और आज) मेरी टिप्पणी सच थी, लेकिन यह भविष्य में बदल सकता है। यदि आप डीबीपीडिया आधारित कॉर्पस में रूचि रखते हैं तो आप विकिपीडिया टेक्स्ट से डीबीपीडिया के लिए एनआईएफ आउटपुट उत्पन्न करने के लिए ओपन एक्सट्रैक्शन चैलेंज (http://wiki.dbpedia.org/textext) का पालन करना चाहेंगे। –

2

Python NLTKnltk.corpus.conll2000 कॉर्पस तक पहुंच है। कॉलिंग conll2000.iob_words() (शब्द, अंश-भाषण, आईओबी) ट्रिपल की एक सूची देता है, जहां आईओबी अंदरूनी इकाई/बाहरी इकाई/प्रारंभिक इकाई प्रारूप में एक टैग है।

न्यूजवायर-शैली संदर्भ में लगभग 250k कुल शब्द हैं।

+0

क्या हम किसी अन्य टूल पर इसका उपयोग करने के लिए डेटासेट को भी डंप कर सकते हैं? जैसे कि [** टैगर **] (https://github.com/glample/tagger) GLample द्वारा। – user1412066

+0

CONLL2000 नामित इकाइयों को चिह्नित नहीं करता है। – alexis

6

http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html

CoNLL 2003 कोष है, जो कि सूची में है पर कॉर्पोरा की एक सूची नहीं है, नि: शुल्क है और NIST (पाठ) http://www.cnts.ua.ac.be/conll2003/ner/ (एनोटेशन) से उपलब्ध है और है।

+1

क्या हमें फॉर्म भरने की प्रक्रिया का पालन करना है, इस [** लिंक **] (http://trec.nist.gov/data/reuters/reuters.html) में बताए गए डेटासेट प्राप्त करने के लिए एनआईएसटी को आवेदन भेजना है। ? या कुछ विकल्प है? – user1412066

संबंधित मुद्दे