2010-11-15 14 views
35

मैं सोच रहा था कि क्या कोई जानता है कि मैं सकारात्मक और नकारात्मक शब्दों के शब्दकोश कहां प्राप्त कर सकता हूं। मैं भाव विश्लेषण में देख रहा हूं और यह इसका एक महत्वपूर्ण हिस्सा है।भावना विश्लेषण शब्दकोश

उत्तर

32

पिट्सबर्ग विश्वविद्यालय में Sentiment Lexicon, जो हो सकता है वह हो सकता है। यह सकारात्मक/तटस्थ/नकारात्मक भावना के साथ लगभग 8,000 शब्दों का एक व्याख्यान है। यह this paper में अधिक विस्तार से वर्णित है और जीपीएल के तहत जारी किया गया है।

6

This paper from 2002 बीज सेट के रूप में केवल दो शब्दों का उपयोग करके टेक्स्ट नमूनों से स्वचालित रूप से ऐसे शब्दकोश को प्राप्त करने के लिए एल्गोरिदम का वर्णन करता है।

+3

इस दृष्टिकोण अल्ताविस्ता गणना करने के लिए पीएमआई-आईआर हिट का उपयोग करता है, तो मुझे नहीं लगता कि यह कोई है जो आरंभ करने के लिए चाहता है के लिए इष्टतम है कि समस्या है। इसके अलावा यह एक अप्रसन्न दृष्टिकोण है, और पर्यवेक्षित दृष्टिकोण की तुलना में इसके परिणाम अभी भी रोमांचक नहीं हैं। –

19

थोड़ा देर से पहुंचे मैं केवल ध्यान दूंगा कि शब्दकोशों में भावना विश्लेषण के लिए सीमित योगदान है। कुछ भावनाओं वाले वाक्य में कोई भी "भावना" शब्द नहीं है - उदा। "पुस्तक पढ़ें" जो एक फिल्म समीक्षा में सकारात्मक हो सकती है जबकि फिल्म समीक्षा में नकारात्मक हो सकता है। इसी तरह, भावना शब्द "अप्रत्याशित" थ्रिलर के संदर्भ में सकारात्मक हो सकता है लेकिन टोयोटा की ब्रेक सिस्टम का वर्णन करते समय नकारात्मक हो सकता है।

और देखते हैं कई और अधिक ...

+0

वास्तव में अच्छे अंक। सौभाग्य से मेरे लिए मैं केवल कुछ समाचार स्रोतों से निपट रहा हूं जो झुकाव का उपयोग करने से बचना चाहते हैं और आमतौर पर तथ्यों को बताते हैं। हालांकि, निश्चित रूप से चिंता करने के लिए कुछ निश्चित रूप से कुछ धन्यवाद। – user387049

+2

मुझे लगता है कि संदर्भ के बिना शब्दकोशों का उपयोग करते समय, उम्मीद है कि अलग-अलग वाक्यों के लिए शोर (गलत वर्गीकरण) की निश्चित मात्रा हो सकती है, कुल योग में सार्थक होने के लिए पर्याप्त संकेत होगा। मुझे यकीन नहीं है कि सांख्यिकीय कठोरता के साथ इस आशा का परीक्षण करने के बारे में कोई कैसे होगा। – mcduffee

2

AFINN आप यहाँ पा सकते हैं और यह भी बना सकते हैं गतिशील। जब भी अज्ञात + शब्द शब्द +1 के साथ आता है। केले की तरह नया + शब्द है और दो बार दिखाई देता है तो यह +2 बन जाएगा।

जितना अधिक लेख और डेटा आप अपना शब्दकोश क्रॉल करेंगे उतना मजबूत हो जाएगा!

+3

वह फ़ाइल वास्तव में एक खिलौना फ़ाइल है, जिसे क्लास असाइनमेंट के लिए बनाया गया है। मेरी राय में, वास्तविक काम के लिए इसका इस्तेमाल करना गलती होगी। – mcduffee

+0

@mcduffee विस्तृत? – jbird

+0

@jbird मुझे यकीन नहीं है कि मैं क्या जोड़ सकता हूं। फ़ाइल क्लास असाइनमेंट के लिए बनाई गई थी, जहां मूल्यांकन करने के लिए पाठ सूची में शब्दों के अनुरूप बनाया गया था। इसमें कई, कई शब्द गायब हैं (पूरी सूची 2500 से कम शब्द है)। इसे टेक्स्ट के साथ उपयोग करने का प्रयास करना जो सूची में शब्दों के अनुरूप नहीं है, मुझे डर है, परिणामस्वरूप अधिक पूर्ण सूची प्रदान करने से भावनाओं के कम सटीक आकलन होंगे। – mcduffee

16
2

हार्वर्ड चतुर्थ शब्दकोश निर्देशिका http://www.wjh.harvard.edu/~inquirer/homecat.htm रेडी-टू-उपयोग शब्दकोशों के कम से कम दो सेट सकारात्मक/नकारात्मक रुख के लिए है।

0

आप Vader भावना शब्दकोश का उपयोग कर सकते

from nltk.sentiment.vader import SentimentIntensityAnalyzer 

sentence='APPle is good for health' 
sid = SentimentIntensityAnalyzer() 
ss = sid.polarity_scores(sentence) 
print(ss) 

यह आप की सजा की विपरीतता दे देंगे।

उत्पादन:

{'compound': 0.4404, 'neu': 0.58, 'pos': 0.42, 'neg': 0.0} 
संबंधित मुद्दे