2013-04-18 5 views
5

मैं स्टैनफोर्ड पीओएस टैगर (पहली बार) का उपयोग कर रहा हूं और जब यह सही ढंग से अंग्रेजी टैग करता है, तो यह मॉडल पैरामीटर को बदलने के दौरान भी चीनी (सरलीकृत) को पहचानता प्रतीत नहीं होता है। क्या मैंने कुछ अनदेखा किया है?स्टैनफोर्ड पीओएस टैगर चीनी पाठ को टैग नहीं कर रहा है

मैं डाउनलोड किया है और यहां से नवीनतम पूर्ण संस्करण अनपैक किया गया है: http://nlp.stanford.edu/software/tagger.shtml

"नमूना-input.txt" में तो मैं inputed गए नमूना पाठ।

这 是 一个 测试 的 句子। 这 是 另一个 句子।

तो मैं बस चलाने

./stanford-postagger.sh मॉडल/चीनी-distsim.tagger नमूना -input.txt

अपेक्षित आउटपुट भाषण के एक हिस्से के साथ प्रत्येक शब्द को टैग करना है, लेकिन इसके बजाय यह पाठ की पूरी स्ट्रिंग को एक शब्द के रूप में पहचानता है :

टैगर मॉडल/चीनी-distsim.tagger से डिफ़ॉल्ट लोड हो रहा है गुण

मॉडल से पढ़ना पीओएस टैगर मॉडल/चीनी-distsim.tagger ... किया [3.5 सेकंड]।

這 是 一個 測試 的 句子। 這 是 另一個 句子। # एनआर प्रति सेकंड 30.30 शब्दों में

टैग की गईं 1 शब्द।

मैं किसी भी मदद की सराहना करता हूं।

+0

इसके अलावा, मैंने पहले से ही जांच की है कि फ़ाइल और सेटिंग्स यूटीएफ -8 में हैं। मैंने विभिन्न नमूना ग्रंथों के साथ भी कोशिश की है। –

उत्तर

6

मुझे अंत में एहसास हुआ कि इस पॉज़ टैगर में टोकननाइजेशन/सेगमेंटेशन शामिल नहीं है। ऐसा लगता है कि शब्दों को टैगर को खिलाने से पहले स्थान सीमित किया जाना चाहिए।

http://nlp.stanford.edu/software/segmenter.shtml

सभी को धन्यवाद: चीनी की अधिकतम एन्ट्रापी शब्द विभाजन में रुचि रखने वालों के लिए, वहाँ यहाँ एक अलग पैकेज उपलब्ध है।

+2

हां, आपको पीओएस टैगर में जाने से पहले सेगमेंटर में प्रवेश करने की आवश्यकता है। – alvas

संबंधित मुद्दे