2017-02-18 12 views
7

मैं खुली नामित इकाई पहचान समस्या (जीवविज्ञान/रसायन शास्त्र) के लिए अनुकूलित करने के लिए सबसे अच्छा मॉडल क्या करने का प्रयास कर रहा हूं, इसलिए संस्थाओं का कोई शब्दकोश मौजूद नहीं है लेकिन उन्हें संदर्भ द्वारा पहचाना जाना चाहिए)।नामित इकाई पहचान के लिए TensorFlow RNNs

वर्तमान में मेरा सबसे अच्छा अनुमान सिंटेक्सनेट को अनुकूलित करना है ताकि शब्दों को एन, वी, एडीजे आदि के रूप में टैग करने की बजाय, यह BEGINNING, INSIDE, आउट (आईओबी नोटेशन) के रूप में टैग करना सीखता है।

हालांकि मुझे यकीन नहीं है कि इनमें से कौन सा दृष्टिकोण सबसे अच्छा है?

  • Syntaxnet
  • word2vec
  • seq2seq (मैं जबकि seq2seq अनुवाद में के रूप में अलग-अलग लंबाई की दृश्यों के लिए डिज़ाइन किया गया है लगता है कि यह सही एक के रूप में मैं इसे की जरूरत है दो गठबंधन दृश्यों पर जानने के लिए नहीं है)

सही विधि के लिए सूचक के लिए आभारी होंगे! धन्यवाद!

+1

Syntaxnet और seq2seq काम करेंगे। Contrib में एक रैखिक श्रृंखला सीआरएफ भी है। – drpng

उत्तर

7

सिंटेक्सनेट का नाम नामित इकाई पहचान के लिए उपयोग किया जा सकता है, उदा। देखें: Named Entity Recognition with Syntaxnet

अकेले word2vec नाम इकाई पहचान के लिए बहुत प्रभावी नहीं है। मुझे नहीं लगता कि seq2seq आमतौर पर उस कार्य के लिए उपयोग किया जाता है।

ड्रापिंग उल्लेख के रूप में, आप tensorflow/tree/master/tensorflow/contrib/crf पर देख सकते हैं।

enter image description here

LSTM + सीआरएफ कोड TensorFlow में: सीआरएफ परत से पहले एक LSTM जोड़ा जा रहा है एक सा है, जो something like देता है में मदद मिलेगी https://github.com/Franck-Dernoncourt/NeuroNER

+1

ठीक है बहुत बहुत धन्यवाद! मैंने अंत में सिंटेक्सनेट का उपयोग किया। मैंने अपनी संस्थाओं को आईओबी नोटेशन में परिवर्तित कर दिया और सिंटैक्सनेट पीओएस टैगर को निर्देशों के अनुसार यहां प्रशिक्षित किया: https://github.com/tensorflow/models/tree/master/syntaxnet यह बहुत अच्छा काम करता है, मुझे 78% – Tom

+0

@Tom मिला जानकार अच्छा लगा। एनईआर सिस्टम बेंचमार्किंग के लिए, मैं व्यक्तिगत रूप से conll2003 डेटासेट को पहली तुलना बिंदु के रूप में उपयोग करता हूं: यह मुफ़्त है, तेजी से पर्याप्त छोटा है, एएनएन को प्रशिक्षित करने के लिए काफी बड़ा है, यह एक विकास स्क्रिप्ट के साथ आता है, और इसका अच्छी तरह से अध्ययन किया जाता है। –

संबंधित मुद्दे