2009-11-25 17 views
10

मैं किसी विशेष भाषा में पाठ का इलाज करने के लिए एनएलटीके कैसे बता सकता हूं?NLTK कर सकते हैं/pyNLTK काम "भाषा के आधार पर" (जैसे गैर-अंग्रेज़ी), और कैसे?

कभी-कभार मैं एक विशेष NLP दिनचर्या लिखना एक गैर अंग्रेज़ी (लेकिन अभी भी Hindo-यूरोपीय) पाठ डोमेन पर पीओएस टैगिंग, tokenizing और आदि करने के लिए। POS tagging in German

वैकल्पिक रूप से, किसी भी विशेष हिब्रू/स्पेनिश/पोलिश NLP अजगर के लिए मॉड्यूल देखते हैं:

यह सवाल केवल विभिन्न कॉर्पोरा, नहीं कोड/सेटिंग्स में परिवर्तन का पता लगता है?

उत्तर

8

मुझे यकीन है कि क्या आप कोड/सेटिंग्स में परिवर्तन के रूप में संदर्भ दे रहे नहीं हूँ। एनएलटीके ज्यादातर मशीन सीखने पर निर्भर करता है और "सेटिंग्स" आमतौर पर प्रशिक्षण डेटा से निकाला जाता है।

यह परिणाम और टैगिंग टैगिंग टैगर आप/ट्रेन का उपयोग पर निर्भर हो जाएगा स्थिति की बात आती है। यदि आप स्वयं को प्रशिक्षित करना चाहते हैं तो आपको निश्चित रूप से कुछ स्पेनिश/पॉलिश प्रशिक्षण डेटा की आवश्यकता होगी। इन्हें ढूंढना मुश्किल हो सकता है, सोने की मानक सामग्री सार्वजनिक रूप से उपलब्ध नहीं है। ऐसा करने के लिए वहां उपकरण हैं, लेकिन यह एक पाइथन (http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/) के लिए नहीं है।

nltk.tokenize.punkt.PunktSentenceTokenizer टोकनज़र बहुभाषी वाक्य सीमाओं के अनुसार वाक्यों को टोकननाइज़ करेगा, जिसका विवरण इस पेपर (http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485) में पाया जा सकता है।

+0

धन्यवाद। पंकट वाक्य टोकनेज़र सही दिशा प्रतीत होता है। –

+0

आप काम करने के लिए treetagger कैसे मिलता है? http://stackoverflow.com/questions/15503388/treetagger-installation-successful-but-cannot-open-par-file – alvas

संबंधित मुद्दे