2013-07-16 6 views
6

फ़ारसी के लिए एनएलटीके के कार्यों का उपयोग कैसे करें?फ़ारसी के लिए एनएलटीके

उदाहरण के लिए: 'समन्वय'। जब मैं 'समन्वय' का उपयोग करता हूं, तो जवाब 'मेल नहीं खाता' है, हालांकि मेरे पाठ में समन्वय का पैरामीटर है।

इनपुट बहुत सरल है। इसमें "हैलो سلام" शामिल है। जब 'कॉन्सर्डेंस' का पैरामीटर 'हैलो' है तो जवाब सही है, लेकिन, अगर यह 'سلام' है तो जवाब 'मिलान नहीं है'। मेरे लिए आउटपुट '1 मैचों में से 1 प्रदर्शित करना' है। https://github.com/sobhe/hazm

उपयोग::

import nltk 
    from urllib import urlopen 
    url = "file:///home/.../1.html" 
    raw = urlopen(url).read() 
    raw = nltk.clean_html(raw) 
    tokens = nltk.word_tokenize(raw) 
    tokens = tokens[:12] 
    text = nltk.Text(tokens) 
    print text.concordance('سلام') 
+2

क्या आप न्यूनतम कोड उदाहरण और आपके द्वारा किए गए प्रयासों के न्यूनतम इनपुट उदाहरण दे सकते हैं, और क्या आप होने की उम्मीद है? – jogojapan

उत्तर

19

जोरदार NLP के लिए सिफारिश की अजगर फारसी पुस्तकालय खिड़कियों में

>>> from __future__ import unicode_literals 

>>> from hazm import Normalizer 
>>> normalizer = Normalizer() 
>>> normalizer.normalize('اصلاح نويسه ها و استفاده از نیم‌فاصله پردازش را آسان مي كند') 
'اصلاح نویسه‌ها و استفاده از نیم‌فاصله پردازش را آسان می‌کند' 

>>> from hazm import sent_tokenize, word_tokenize 
>>> sent_tokenize('ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟') 
['ما هم برای وصل کردن آمدیم!', 'ولی برای پردازش، جدا بهتر نیست؟'] 
>>> word_tokenize('ولی برای پردازش، جدا بهتر نیست؟') 
['ولی', 'برای', 'پردازش', '،', 'جدا', 'بهتر', 'نیست', '؟'] 

>>> from hazm import Stemmer, Lemmatizer 
>>> stemmer = Stemmer() 
>>> stemmer.stem('کتاب‌ها') 
'کتاب' 
>>> lemmatizer = Lemmatizer() 
>>> lemmatizer.lemmatize('می‌روم') 
'رفت#رو' 

>>> from hazm import POSTagger 
>>> tagger = POSTagger() 
>>> tagger.tag(word_tokenize('ما بسیار کتاب می‌خوانیم')) 
[('ما', 'PR'), ('بسیار', 'ADV'), ('کتاب', 'N'), ('می‌خوانیم', 'V')] 

>>> from hazm import DependencyParser 
>>> parser = DependencyParser(tagger=POSTagger()) 
>>> parser.parse(word_tokenize('زنگ‌ها برای که به صدا درمی‌آید؟')) 
<DependencyGraph with 8 nodes> 
+0

सी # के लिए कुछ भी समान है? –

+1

उनके पास एक अनौपचारिक सी # पोर्ट भी है। मैंने इसे आजमाया नहीं है हालांकि: https://github.com/mojtaba-khallash/NHazm – Mohsen

0

वास्तव में, मैं का इस्तेमाल किया है हज़्म, और मैं हज़्म स्थापित कर सकता है, लेकिन जब मैं इस कोड को चलाने :

from __future__ import unicode_literals 
from hazm import * 
I have such Error: 

from hazm import x 
    File "C:\Python34\lib\site-packages\hazm\__init__.py", line 13, in <module> 
    from .SequenceTagger import SequenceTagger, IOBTagger 
    File "C:\Python34\lib\site-packages\hazm\SequenceTagger.py", line 6, in <module> 
    from wapiti import Model 
ImportError: No module named 'wapiti' 
+0

आपको इसे संपादित करना चाहिए ताकि इसे सही ढंग से स्वरूपित किया जा सके – nbryans

+0

आपको काम करने के लिए हम्मी नामक एक पाइथन पैकेज की आवश्यकता है। समस्या यह है कि विंडोज़ पर Wapiti संकलित करना इतना आसान नहीं है ... यह विजुअल सी और यहां तक ​​कि मिंगडब्लू के साथ संकलित नहीं होगा – wmac