46

मुझे कॉर्पोरेट दस्तावेज़ में भावनाओं के लिए पहले से ही सकारात्मक/नकारात्मक के रूप में वर्गीकृत दस्तावेजों का एक समूह कहां मिल सकता है? मैं दस्तावेजों का एक बड़ा हिस्सा चाहता हूं जो कंपनियों के लिए समीक्षा प्रदान करे, जैसे विश्लेषकों और मीडिया द्वारा प्रदान की गई कंपनियों की समीक्षा।भावना विश्लेषण के लिए प्रशिक्षण डेटा

मुझे ऐसे निगम मिलते हैं जिनके पास उत्पादों और फिल्मों की समीक्षा है। क्या व्यवसाय डोमेन के लिए एक कॉर्पस है जिसमें कंपनियों की समीक्षा शामिल है, जो व्यवसाय की भाषा से मेल खाते हैं?

+0

भी देखें इस संबंधित सवाल: http://stackoverflow.com/questions/5570681/what-training-data-sources-could-be-used-for-sentiment-classification-models –

उत्तर

32

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

आप चहचहाना का उपयोग कर सकते है, इसके स्माइली के साथ, इस तरह: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

आशा हो जाता है कि आप शुरू कर दिया। साहित्य में और भी कुछ है, यदि आप निषेध, भावना स्कोप इत्यादि जैसे विशिष्ट सबटास्क में रूचि रखते हैं

कंपनियों पर ध्यान केंद्रित करने के लिए, आप विषय पहचान के साथ एक विधि जोड़ सकते हैं, या सस्ते में बस बहुत सारे उल्लेख एक दी गई कंपनी या आप मैकेनिकल तुर्कर्स द्वारा अपना डेटा एनोटेटेड प्राप्त कर सकते हैं।

+1

FYI पिट यहां http: //mpqa.cs.pitt स्थानांतरित हो गया .edu/corpora/mpqa_corpus/ –

1

मुझे इस तरह के किसी भी कॉर्पस को स्वतंत्र रूप से उपलब्ध होने के बारे में पता नहीं है, लेकिन आप एक लेबल किए गए डेटासेट पर unsupervised method को आजमा सकते हैं।

4

आप कुछ संसाधनों (मीडिया चैनलों, ब्लॉग्स, आदि) डोमेन आप पता लगाने के लिए चाहते हैं के बारे में है, तो आप अपने खुद के कोष बना सकते हैं। मैं अजगर में ऐसा करते हैं:

  • सामग्री है कि मैं वर्गीकृत करने के लिए चाहते हैं पार्स करने के लिए ब्यूटीफुल सूप http://www.crummy.com/software/BeautifulSoup/ का उपयोग कर।
  • उन वाक्यों को अलग करें जो कंपनियों के बारे में सकारात्मक/नकारात्मक राय हैं।
  • NLTK उपयोग इस वाक्य, tokenize शब्द, पीओएस टैगिंग, आदि
  • उपयोग NLTK पीएमआई केवल एक ही कक्षा में Bigrams या trigrams राज्यमंत्री लगातार गणना करने के लिए कार्रवाई करने के लिए

बनाना कोष पूर्व के एक कठिन काम है प्रसंस्करण, जांच, टैगिंग इत्यादि, लेकिन सटीकता को बढ़ाने में कई बार एक विशिष्ट डोमेन के लिए मॉडल तैयार करने के लाभ हैं। यदि आप पहले ही तैयार कॉर्पस प्राप्त कर सकते हैं, तो भावनात्मक विश्लेषण के साथ आगे बढ़ें;)

0

आप डेटाफिनिटी से ऑनलाइन समीक्षाओं का एक बड़ा चयन प्राप्त कर सकते हैं। अधिकांश समीक्षा रेटिंग डेटा के साथ आती हैं, जो सकारात्मक/नकारात्मक से भावनाओं पर अधिक ग्रैन्युलरिटी प्रदान करेगी। यहां एक list of businesses with reviews है, और यहां एक list of products with reviews है।

13

यह एक सूची है जिसे मैंने कुछ हफ्ते पहले लिखा था, my blog से। इनमें से कुछ डेटासेट हाल ही में एनएलटीके पायथन मंच में शामिल किए गए हैं।

शब्दकोशों बिंग लियू द्वारा


डेटासेट


संदर्भ:

+1

अच्छा जवाब। बहुत बहुत धन्यवाद कर्ट। – ylnor

संबंधित मुद्दे