- हर जगह यूनिकोड और utf-8 पर चिपकाएं।
- मूल जापानी एन्कोडिंग से दूर रहें: euc-jp, shiftjis, iso-2022-jp, लेकिन ध्यान रखें कि यदि आप जारी रखते हैं तो शायद आप उन्हें किसी बिंदु पर सामना करेंगे।
- पीओएस विश्लेषण, शब्द विभाजन आदि जैसे जटिल सामान करने के लिए एक सेगमेंटर से परिचित हो जाओ। लोकप्रियता/शक्ति के क्रम में जापानी लोगों पर एनएलपी (प्राकृतिक भाषा प्रसंस्करण) काम करने वाले अधिकांश लोगों द्वारा उपयोग किए जाने वाले मानक उपकरण हैं।, यह आप की तरह पाठ लेने के लिए अनुमति देता है
「日本語は、とても難しいです。」
और वापस
kettle:~$ echo 日本語は、難しいです | mecab
日本語 名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
、 記号,読点,*,*,*,*,、,、,、
難しい 形容詞,自立,*,*,形容詞・イ段,基本形,難しい,ムズカシイ,ムズカシイ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
जो मूल रूप से एक विस्तृत है महान जानकारी के सभी प्रकार के मिल:
MeCab (SourceForge पर मूल रूप से) भयानक है भाषण, रीडिंग, उच्चारण इत्यादि के हिस्सों का रन-डाउन। यह आपको क्रिया काल का विश्लेषण करने का पक्ष भी देगा,
kettle:~$ echo メキシコ料理が食べたい | mecab
メキシコ 名詞,固有名詞,地域,国,*,*,メキシコ,メキシコ,メキシコ
料理 名詞,サ変接続,*,*,*,*,料理,リョウリ,リョーリ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
たい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
EOS
हालांकि, दस्तावेज़ीकरण जापानी में है, और सेट अप करने और आउटपुट को प्रारूपित करने के तरीके को प्रारूपित करने के लिए यह थोड़ा जटिल है।
deb http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
deb-src http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
संकुल स्थापित करने के लिए: $ apt-get install mecab-ipadic-utf8 mecab python-mecab
वहाँ मोती, अज़गर, माणिक सहित भाषाओं का एक समूह में ubuntu/डेबियन के लिए उपलब्ध संकुल, और बाइंडिंग ...
ubuntu के लिए अपार्टमेंट-रेपोस हैं
मुझे लगता है कि चाल करना चाहिए।
मेकब के अन्य विकल्प हैं, ChaSen, जो कई साल पहले मेकब (जो संयोग से Google पर काम करता है), और Kakasi के लेखक द्वारा लिखे गए थे, जो बहुत कम शक्तिशाली है।
मैं निश्चित रूप से अपने स्वयं के संयोग दिनचर्या को रोल करने से बचने की कोशिश करता हूं। इसके साथ समस्या यह है कि इसे टन और टन काम की आवश्यकता होगी, जो कि पहले से ही कर चुके हैं, और नियमों के साथ सभी किनारे के मामलों को कवर करना, दिन के अंत में असंभव है।
मेकैब सांख्यिकीय रूप से संचालित है, और डेटा के भार पर प्रशिक्षित है। यह एक परिष्कृत मशीन लर्निंग तकनीक को सशर्त यादृच्छिक फ़ील्ड (सीआरएफ) कहा जाता है और परिणाम वास्तव में काफी अच्छे हैं।
जापानी के साथ मज़े करें। मुझे यकीन नहीं है कि आपका जापानी कितना अच्छा है, लेकिन अगर आपको मेकब के लिए दस्तावेज़ों के साथ मदद की ज़रूरत है या जो भी इसके बारे में पूछने में स्वतंत्र महसूस हो। शुरुआत में कांजी काफी डरावना हो सकता है।
आप उत्पन्न के कुछ फार्म पर देख रहे हैं? मेरी अज्ञानता को क्षमा करें, लेकिन नियमित वर्णमाला आधारित भाषा के लिए आप जो करना चाहते हैं उससे यह कठिन (एक भौगोलिक भाषा के लिए) दिखता है। – dirkgently
उदाहरण में कोई समस्या नहीं है मूल शब्द मूल रूप से け す है लेकिन मैं す से し में बदल रहा हूं और adding जोड़ रहा हूं। एक और उदाहरण の む の ん で प्राप्त करने के लिए む से ん で बदल रहा है। एक आसान उदाहरण हो सकता है।た べ る जो आप को छोड़ देंगे और た べ て प्राप्त करने के लिए add जोड़ें। उम्मीद है कि यह अधिक समझ में आता है। – percent20
आपके उदाहरण (अजीब तरह से!) मुझे एक धारणा दें (जो मुझे यकीन है कि गलत है) जो आप चाहते हैं वह कुछ स्ट्रिंग प्रतिस्थापन है। यहां तक कि (यूनिकोड) regex काम करेगा। – dirkgently