2008-09-23 15 views
13

मुझे "सकारात्मक" बनाम "ऋणात्मक" के लिए उद्योग-विशिष्ट वाक्यों (यानी फिल्म समीक्षा) का विश्लेषण करने के लिए सर्वोत्तम दृष्टिकोण निर्धारित करने में आपकी सहायता की आवश्यकता है। मैंने पहले ओपनएनएलपी जैसे पुस्तकालयों को देखा है, लेकिन यह बहुत कम स्तर है - यह सिर्फ मुझे मूल वाक्य रचना देता है; मुझे जो चाहिए वह एक उच्च स्तरीय संरचना है: - उम्मीद है कि शब्दसूची - उम्मीद है कि मेरे डेटा के सेटएनएलपी: योग्यतापूर्वक "सकारात्मक" बनाम "ऋणात्मक" वाक्य

धन्यवाद!

उत्तर

23

जो आप खोज रहे हैं उसे आमतौर पर Sentiment Analysis कहा जाता है। आम तौर पर, भावना विश्लेषण नाजुक सूक्ष्मता, जैसे कटाक्ष या विडंबना को संभालने में सक्षम नहीं है, लेकिन यदि आप उस पर डेटा का एक बड़ा सेट फेंकते हैं तो यह बहुत अच्छी तरह से किराए पर लेता है।

भावना विश्लेषण आमतौर पर प्री-प्रोसेसिंग की काफी आवश्यकता होती है। कम से कम टोकननाइजेशन, वाक्य सीमा का पता लगाने और भाषण-का-भाषण टैगिंग। कभी-कभी, वाक्य रचनात्मक पार्सिंग महत्वपूर्ण हो सकती है। इसे ठीक से करना कम्प्यूटेशनल भाषाविज्ञान में अनुसंधान की एक पूरी शाखा है, और मैं आपको अपने समाधान के साथ आने की सलाह नहीं दूंगा जबतक कि आप पहले क्षेत्र का अध्ययन करने के लिए अपना समय न लें।

ओपनएनएलपी में भावनात्मक विश्लेषण की सहायता के लिए कुछ टूल हैं, लेकिन यदि आप कुछ और गंभीर चाहते हैं, तो आपको LingPipe टूलकिट में देखना चाहिए। इसमें कुछ अंतर्निहित एसए-कार्यक्षमता है और एक अच्छा tutorial है। और आप इसे अपने डेटा के सेट पर प्रशिक्षित कर सकते हैं, लेकिन ऐसा नहीं लगता कि यह पूरी तरह से छोटा है :-)।

इस शब्द के लिए गुगलिंग शायद आपको कुछ संसाधनों के साथ काम करने के लिए भी देगी। यदि आपके पास कोई और विशिष्ट सवाल है, तो बस पूछें, मैं एनएलपी-टैग को बारीकी से देख रहा हूं ;-)

+0

आश्चर्यजनक रूप से उपयोगी - एक गुच्छा धन्यवाद, Aleksandar! –

6

भावनात्मक विश्लेषण के कुछ दृष्टिकोण अन्य पाठ वर्गीकरण कार्यों पर लोकप्रिय रणनीतियों का उपयोग करते हैं। सबसे आम बात आपकी फिल्म समीक्षा को एक शब्द वेक्टर में बदल रही है, और इसे प्रशिक्षण डेटा के रूप में वर्गीकृत एल्गोरिदम में खिला रही है। सबसे लोकप्रिय डेटा खनन पैकेज आपको यहां मदद कर सकते हैं। आप इस tutorial on sentiment classification पर एक ओपन सोर्स RapidMiner toolkit का उपयोग करके प्रयोग करने का तरीका बता सकते हैं।

संयोग से, good data set फिल्म समीक्षाओं पर राय का पता लगाने से संबंधित शोध उद्देश्यों के लिए उपलब्ध कराया गया है। यह आईएमडीबी उपयोगकर्ता समीक्षाओं पर आधारित है, और आप क्षेत्र पर कई related research work और डेटा सेट का उपयोग कैसे कर सकते हैं।

यह ध्यान में रखना महत्वपूर्ण है कि इन तरीकों की प्रभावशीलता केवल सांख्यिकीय दृष्टिकोण से तय की जा सकती है, ताकि आप बहुत अधिक अनुमान लगा सकें कि वहां गलत वर्गीकरण और मामले जहां राय का पता लगाना मुश्किल है। जैसा कि पहले से ही इस धागे में देखा गया है, विडंबना और कटाव जैसी चीज़ों का पता लगाना वास्तव में बहुत मुश्किल हो सकता है।

संबंधित मुद्दे