2011-04-07 4 views
9

क्या कोई मुझे मेकैब डिफ़ॉल्ट आउटपुट पर प्रबुद्ध कर सकता है? क्या एनोटेशन MeCab उत्पादन करता है और जहां मैं morpho विश्लेषकमेकैब आउटपुट और टैगसेट क्या है?

http://mecab.sourceforge.net/

किसी MeCab से उत्पादन समझ सकती है के लिए tagset मिल सकती है?

<s> 
ブギス・ジャンクション ブギス・ジャンクション ブギス・ジャンクション 名詞-一般  
に ニ に 助詞-格助詞-一般  
は ハ は 助詞-係助詞  
最も モットモ 最も 副詞-一般  
買い カイ 買う 動詞-自立 五段・ワ行促音便 連用形 
物慣れ モノナレ 物慣れる 動詞-自立 一段 連用形 
し シ する 動詞-自立 サ変・スル 連用形 
た タ た 助動詞 特殊・タ 基本形 
人々 ヒトビト 人々 名詞-一般  
を ヲ を 助詞-格助詞-一般  
も モ も 助詞-係助詞  
魅了 ミリョウ 魅了 名詞-サ変接続  
する スル する 動詞-自立 サ変・スル 基本形 
品 シナ 品 名詞-一般  
揃え ソロエ 揃える 動詞-自立 一段 連用形 
が ガ が 助詞-格助詞-一般  
あり アリ ある 動詞-自立 五段・ラ行 連用形 
ます マス ます 助動詞 特殊・マス 基本形 
。 。 。 記号-句点  
</s> 
+0

कोई भी आउटपुट की व्याख्या कर सकता है? कम से कम आम आदमी में ?? – alvas

उत्तर

10

आपके उदाहरण में आउटपुट प्रारूप chasen2 प्रतीत होता है, जिसे dicrc फ़ाइल में परिभाषित किया गया है। यही होगा:

; ChaSen (include spaces) 
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n 
unk-format-chasen2 = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n 
eos-format-chasen2 = EOS\n 

एक सामान्य नोड प्रारूप के लिए, कि होगा:

1. surface value, including any whitespace 
2. \t 
3. reading 
4. \t 
5. root form 
6. \t 
7. part of speech 
8. part of speech, subtype 1 
9. part of speech, subtype 2 
10. part of speech, subtype 3 
11. \t 
12. conjugation 
13. \t 
14. inflection 
15. newline 

जहां 7 से लेकर 10 आइटम हाइफन-सीमांकित कर रहे हैं।

अधिक जानकारी के लिए, आपको मेकब के लिए 出力フォーマット documentation देखना चाहिए।

संपादित करें: मेकैब आउटपुट स्वरूपण स्पष्टीकरण पृष्ठ के लिए अद्यतन लिंक।

+0

धन्यवाद buruzaemon-san। मेरा जापानी स्तर कम है इसलिए मुझे दस्तावेज पढ़ने में कठिनाई थी। मैंने आईपीएडिक 2.7.0 मैनुअल पढ़ने की कोशिश की है और मैं थोड़ा सा समझता हूं कि मैं आउटपुट प्रारूप को समझ नहीं पाया। एक बार फिर आपका धन्यवाद। – alvas

+1

मुझे लगता है कि लिंक (प्रारूप प्रलेखन) समाप्त हो गया है (कम से कम मेरे लिए काम नहीं करता है), लेखक का जिथब पेज https://taku910.github.io/mecab/#format और https://taku910.github.io पर है /mecab/format.html; टेक्स्ट-टू-स्पीच (साथ ही साथ फरिगाना) अनुप्रयोगों के लिए केवल एक साइड नोट, व्यक्तिगत रूप से मैं 'आउटपुट-प्रारूप-प्रकार = योमी' – HidekiAI

+0

का उपयोग करना पसंद करता हूं, मुझे उस पुरानी लिंक के बारे में बताने के लिए धन्यवाद, @ हाइडकी – buruzaemon

संबंधित मुद्दे