नामांकित इकाई पहचान के लिए नि: शुल्क टैग की गई कॉर्पस

मैं नामांकित इकाई पहचान के लिए प्रशिक्षित करने के लिए एक सिस्टम के लिए एक मुफ्त टैग की गई कॉर्पस की तलाश में हूं। मुझे लगता है कि ज्यादातर (जैसे न्यूयॉर्क टाइम्स एक) महंगे हैं और खुले नहीं हैं। क्या कोई मदद कर सकता है?नामांकित इकाई पहचान के लिए नि: शुल्क टैग की गई कॉर्पस

स्रोत

2010-07-25 DantheMan

http://pendata.stackexchange.com/q/7250/1652 (जहां यह बंद नहीं है) पर एक ही सवाल पूछा गया था –

dbPediaखुला और

dbPedia विकिपीडिया से बनाया गया है और यह एक बहुत बड़ा कोष है। सभी dbPedia titles dump पर rdfs:label से जुड़े ट्रिपल पर ल्यूसीन इंडेक्स बनाएं।

स्रोत

2010-07-25 17:35:23 ankitjaininfo

अन्य उत्तरों में से एक के रूप में, डीबीपीडिया एक टैग किए गए कॉर्पस नहीं है। –

2012 में (और आज) मेरी टिप्पणी सच थी, लेकिन यह भविष्य में बदल सकता है। यदि आप डीबीपीडिया आधारित कॉर्पस में रूचि रखते हैं तो आप विकिपीडिया टेक्स्ट से डीबीपीडिया के लिए एनआईएफ आउटपुट उत्पन्न करने के लिए ओपन एक्सट्रैक्शन चैलेंज (http://wiki.dbpedia.org/textext) का पालन करना चाहेंगे। –

Python NLTKnltk.corpus.conll2000 कॉर्पस तक पहुंच है। कॉलिंग conll2000.iob_words() (शब्द, अंश-भाषण, आईओबी) ट्रिपल की एक सूची देता है, जहां आईओबी अंदरूनी इकाई/बाहरी इकाई/प्रारंभिक इकाई प्रारूप में एक टैग है।

न्यूजवायर-शैली संदर्भ में लगभग 250k कुल शब्द हैं।

स्रोत

2011-03-20 23:00:12 AndreiM

क्या हम किसी अन्य टूल पर इसका उपयोग करने के लिए डेटासेट को भी डंप कर सकते हैं? जैसे कि [** टैगर **] (https://github.com/glample/tagger) GLample द्वारा। – user1412066

CONLL2000 नामित इकाइयों को चिह्नित नहीं करता है। – alexis

http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html

CoNLL 2003 कोष है, जो कि सूची में है पर कॉर्पोरा की एक सूची नहीं है, नि: शुल्क है और NIST (पाठ) http://www.cnts.ua.ac.be/conll2003/ner/ (एनोटेशन) से उपलब्ध है और है।

स्रोत

2012-07-12 20:42:24

क्या हमें फॉर्म भरने की प्रक्रिया का पालन करना है, इस [** लिंक **] (http://trec.nist.gov/data/reuters/reuters.html) में बताए गए डेटासेट प्राप्त करने के लिए एनआईएसटी को आवेदन भेजना है। ? या कुछ विकल्प है? – user1412066

नामांकित इकाई पहचान के लिए नि: शुल्क टैग की गई कॉर्पस

उत्तर

संबंधित मुद्दे