2016-06-16 6 views
6

मैंने स्टैनफोर्ड-एनएलपी के औजारों की खोज की और इसे वास्तव में दिलचस्प पाया। मैं एक फ्रेंच डेटामैनेर/डेटासैटिस्ट हूं, टेक्स्ट विश्लेषण का शौकीन हूं और आपके टूल्स का उपयोग करना पसंद करूंगा, लेकिन एनईआर फ्रेंच में अनुपलब्ध है, जो मुझे काफी परेशान कर रहा है।स्टैनफोर्ड-एनएलपी सशर्त रैंडम फील्ड मॉडल के आधार पर एक फ्रेंच एनईआर को प्रशिक्षित करने के लिए कैसे?

मुझे अपना खुद का फ्रेंच एनईआर बनाना अच्छा लगेगा, शायद इसे पैकेज में योगदान के रूप में भी प्रदान किया जाए, यदि इसे योग्य माना जाता है, तो ... क्या आप मुझे फ्रेंच एनईआर के लिए सीआरएफ को प्रशिक्षित करने की आवश्यकताओं पर जानकारी दे सकते हैं स्टैनफोर्ड कोरएनएलपी?

धन्यवाद।

उत्तर

7

एनबी: मैं स्टैनफोर्ड उपकरण का डेवलपर नहीं हूं, न ही एनएलपी विशेषज्ञ हूं। बस एक लैम्ब्डा उपयोगकर्ता जिसे किसी बिंदु पर ऐसी सूचनाओं की भी आवश्यकता होती है। इसके अलावा नीचे दी गई जानकारी का वह हिस्सा ध्यान दें अधिकारी पूछे जाने वाले प्रश्न से कर रहे हैं:

  1. java8 स्थापित
  2. एक ट्रेन/परीक्षण नमूना बनाएँ: http://nlp.stanford.edu/software/crf-faq.shtml#a

    ये कदम उठाएँ मैं अपने खुद के एनईआर प्रशिक्षित करने के लिए पीछा किया हैं । यह निम्न स्वरूप के साथ .tsv फ़ाइलों का रूप ले लेना चाहिए:

    Venez O 
        découvrir O 
        lundi DAY 
        le O 
        nouvel O 
        espace O 
        de O 
        vente O 
        ODHOJS ORGANISATION 
    

    अपने पाठ का मूल स्वरूप के आधार पर आप SQL विवरण या अन्य NLP उपकरणों के साथ इस नमूने बना सकते हैं। लेबलिंग सबसे जटिल हिस्सा है क्योंकि मुझे हाथ से ऐसा करने के बजाय आगे बढ़ने के अन्य तरीकों को नहीं पता है।

  3. ट्रेन इस आदेश के साथ मॉडल:

    java -cp "stanford-ner.jar:lib/*" -mx4g edu.stanford.nlp.ie.crf.CRFClassifier -prop prop.txt 
    

    जहां prop.txt है भी here का वर्णन किया।

    यह नया प्रशिक्षित मॉडल युक्त एक नया .jar बनाना चाहिए।

  4. टेस्ट मॉडल प्रदर्शन:

    java -cp "stanford-ner.jar:lib/*" edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -testFile test.tsv > test.res 
    

    इनपुट test.tsvtrain.tsv फ़ाइल से एक ही प्रारूप है। test.res में आउटपुट में एनईआर अनुमानित वर्ग वाला एक अतिरिक्त कॉलम है। अंतिम रेखाएं परिशुद्धता, याद और एफ 1 के संदर्भ में सारांश भी दिखाती हैं।

  5. अंत में, आप वास्तविक डेटा पर अपने एनईआर उपयोग कर सकते हैं:

    java -cp "stanford-ner.jar:lib/*" -mx5g edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -textFile test.txt -outputFormat inlineXML > test.res 
    

आशा है कि यह मदद करता है।

+1

मेर्सी beaucoup! –

+3

यदि कोई फ्रांसीसी निगम ढूंढ रहा है, तो यहां 200,000 प्रविष्टियों के साथ एक है https://github.com/EuropeanaNewspapers/ner-corpora/blob/master/enp_FR.bnf.bio/enp_FR.bnf.bio 16 जीबी रैम के साथ i7 पर और एसएसडी, ट्रेन करने में थोड़ा सा मिनट लगते हैं – Mihai

संबंधित मुद्दे