मैं भावना विश्लेषण के लिए एक एनएलपी परियोजना शुरू कर रहा हूं।एनएलटीके पायथन के साथ भावना विश्लेषण?
मैंने सफलतापूर्वक पाइथन के लिए एनएलटीके स्थापित किया है (इस के लिए सॉफ्टवेयर का एक बड़ा टुकड़ा लगता है)। हालांकि, मुझे यह समझने में परेशानी हो रही है कि इसका उपयोग मेरे कार्य को पूरा करने के लिए कैसे किया जा सकता है।
- मैं डेटा से एक लंबा टुकड़ा के साथ शुरू (मान लीजिए कि उनके वेब सेवा से ब्रिटेन चुनाव के विषय पर कई सौ ट्वीट्स)
- मैं इस को तोड़ने के लिए करना चाहते हैं:
यहाँ मेरी काम है वाक्यों में (या जानकारी 100 या उससे अधिक वर्णों से नहीं) (मुझे लगता है कि मैं इसे पायथन में कर सकता हूं ??)
- फिर उस वाक्य के भीतर विशिष्ट उदाहरणों के लिए सभी वाक्यों को खोजने के लिए "डेविड कैमरून"
- तब मैं प्रत्येक वाक्य में सकारात्मक/नकारात्मक भावना के लिए जाँच और तदनुसार उन्हें गिनती
नायब चाहते हैं: मैं वास्तव में चिंतित बहुत अधिक सटीकता के बारे में क्योंकि मेरी डेटा सेट बड़े और भी कर रहे हैं नहीं कर रहा हूँ कटाक्ष के बारे में ज्यादा चिंतित नहीं है।
सभी डेटा सेट मैं जैसे पा सकते हैं:
यहाँ मुसीबतों मैं कर रहा हूँ कर रहे हैं एनएलटीके के साथ आने वाली कॉर्पस मूवी समीक्षा डेटा webservice प्रारूप में नहीं है। ऐसा लगता है कि इसने कुछ प्रसंस्करण पहले से ही किया है। जहां तक मैं प्रसंस्करण (स्टैनफोर्ड द्वारा) देख सकता हूं, वेका के साथ किया गया था। क्या एनएलटीके के लिए यह सब संभव नहीं है? यहां सभी डेटा सेट पहले ही सकारात्मक/नकारात्मक में व्यवस्थित किए जा चुके हैं उदा। ध्रुवीय डेटासेट http://www.cs.cornell.edu/People/pabo/movie-review-data/ यह कैसे किया जाता है? (भावनाओं द्वारा वाक्यों को व्यवस्थित करने के लिए, क्या यह निश्चित रूप से WEKA है? या कुछ और?)
मुझे यकीन नहीं है कि मैं समझता हूं कि क्यों WEKA और NLTK का उपयोग किया जाएगा। ऐसा लगता है कि वे एक ही चीज़ करते हैं। अगर मैं पहली बार वीकेए के साथ डेटा को संसाधित करने के लिए संसाधित करता हूं तो मुझे एनएलटीके की आवश्यकता क्यों होगी? क्या यह समझाया जा सकता है कि यह क्यों आवश्यक हो सकता है?
मुझे कुछ स्क्रिप्ट मिली हैं जो इस कार्य के करीब कुछ हद तक मिलती हैं, लेकिन सभी एक ही पूर्व-संसाधित डेटा का उपयोग कर रहे हैं। लिंक में दिए गए डेटा नमूनों का उपयोग करने के बजाए वाक्यों में भावनाओं को खोजने के लिए इस डेटा को स्वयं संसाधित करना संभव नहीं है?
किसी भी मदद की बहुत सराहना की है और मुझे बहुत बाल बचाएगा!
चीयर्स Ke
हां, मैं थोड़ी सी खोज के बाद उस साइट पर समाप्त हुआ, लेकिन मुझे लगता है कि प्रत्येक समीक्षा के लिए आंकड़े कैसे प्राप्त करें इस पर थोड़ा फंस गया। मैं पीएल/नकारात्मक के लिए 1 या 0 के साथ समीक्षा आईडी की एक सूची देने के लिए nltk का उपयोग कैसे कर सकता हूं? चीयर्स के –
भविष्य के पाठकों के लिए संभवतः उपयोगी: फिल्म समीक्षा कॉर्पस में "pos" और "neg" श्रेणियां हैं। "Neg" catogory में फ़ाइल आईडी की सूची प्राप्त करने के लिए, बस 'movie_reviews.fileids ("neg")' का उपयोग करें। आप सीधे नकारात्मक श्रेणी में सभी पाठों को सीधे कहकर निकाल सकते हैं, उदाहरण के लिए, 'movie_reviews.sents (श्रेणियां = ["नकारात्मक"]) '। (ये विधियां सभी वर्गीकृत nltk निगम के साथ काम करती हैं। किसी कॉर्पस में श्रेणियों की सूची बनाने के लिए, 'corpus.categories() '।) – alexis