2013-03-04 7 views
5

अपने प्रोजेक्ट अरबी भाषा में एक भावना तो सकारात्मक या नकारात्मक (भावना विश्लेषण) की पहचान करने, इस कार्य को मैं NLTK और अजगर का इस्तेमाल किया करने के लिए, जब मैं अरबी में ट्वीट्स दर्ज एक त्रुटि तब होती हैमैं अपने पायथन कोड में अरबी पाठ कैसे इनपुट करूं?

>>> pos_tweets = [(' أساند كل عون أمن شريف', 'positive'), 
       ('ما أحلى الثورة التونسية', 'positive'), 
       ('أجمل طفل في العالم', 'positive'), 
       ('الشعب يحرس', 'positive'), 
       ('ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')] 
Unsupported characters in input 

है मैं कैसे कर सकते हैं इस समस्या का समाधान निकले?

+0

आप अपने सिस्टम के बारे में अधिक जानकारी दे सकते हैं? – pram

+0

मेरी परियोजना अरबी भाषा के लिए एक भावना विश्लेषण टूलकिट बनाने के लिए है, जब मैंने नेट ब्राउज़ किया था तो मुझे पता चला कि यह कार्य अंग्रेजी भाषा से अधिक कठिन है, मुझे एक उदाहरण मिला जो एनएलटीके और पायथन से भावना का विश्लेषण करने के लिए सौदा करता है और यह एक अच्छा परिणाम देता है [उदाहरण] (http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/), मुझे आश्चर्य है कि क्या मैं अरबी भाषा के लिए एक ही चीज़ कर सकता हूं –

+0

क्षमा करें, मैं मतलब आप इंटरैक्टिव शैल से या एक स्क्रिप्ट से चल रहे हैं? आप किस पायथन खोल का उपयोग करते थे, आपका ओएस क्या है, आदि – pram

उत्तर

3

आपकी समस्या आईडीएलई शैल से आई थी। AFAIK IDLE इंटरैक्टिव मोड में यूटीएफ -8 इनपुट स्वीकार नहीं करेगा।

मेरा सुझाव है कि आप DreamPie या PythonWin जैसे वैकल्पिक (और बेहतर) गोले का उपयोग करें।

+0

से रननिग हूं, ये उपकरण अरबी भाषा में भावना का विश्लेषण करने में सक्षम हैं (क्या स्टॉप शब्द, वर्गीकरण .... के लिए एपीआई है?)? –

+1

वे सिर्फ गोले हैं। वे जो भी कथन आप पाइथन दुभाषिया में टाइप करेंगे, वह पास करेंगे। जो भी खोल आपको पसंद है उसका उपयोग करने से कोई समस्या नहीं पड़ेगी। बेशक आपको अभी भी आवश्यक पुस्तकालय स्थापित करना होगा (इस मामले में nltk)। – pram

+0

धन्यवाद, यह ड्रीमपी शेल के साथ काम करता है :) –

3

एक साधारण हैक है जो मैं आमतौर पर UTF-8 को अपने पायथन कोड में इनपुट करने के लिए करता हूं। मैं नहीं जानता कि यह क्यों काम करता है, लेकिन यह यूनिकोड तार स्वीकार करता है और आसानी से स्क्रिप्ट चलाने के बाद मैं इन पंक्तियों में शामिल कर सकता:

#! /usr/local/bin/python -*- coding: UTF-8 -*- 

pos_tweets = [(u' أساند كل عون أمن شريف', 'positive'), 
(u'ما أحلى الثورة التونسية', 'positive'), 
(u'أجمل طفل في العالم', 'positive'), 
(u'الشعب يحرس', 'positive'), 
(u'ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')] 

for i in pos_tweets: 
    print i[0], i[1] 
+1

यह अब काम करता है, धन्यवाद :) –

+3

...... (= ألعفو – alvas

संबंधित मुद्दे