मैं अपनी भावनाओं के अनुसार तीन श्रेणियों (खरीदें, होल्ड, सेल) में ट्वीट्स को वर्गीकृत करने की कोशिश कर रहा हूं। मैं आर और पैकेज e1071 का उपयोग कर रहा हूँ।आर: नाइव बेयस वर्गीकृत आधार केवल पूर्व-प्राथमिकताओं पर निर्णय
मेरे पास दो डेटा फ्रेम हैं: एक ट्रेनिंग और नई ट्वीट्स का एक सेट जो भावनाओं की भविष्यवाणी की जानी चाहिए।
trainingset dataframe:
+--------------------------------------------------+
**text | sentiment**
*this stock is a good buy* | Buy
*markets crash in tokyo* | Sell
*everybody excited about new products* | Hold
+--------------------------------------------------+
अब मैं ट्वीट पाठ trainingset[,2]
और भावना श्रेणी trainingset[,4]
का उपयोग कर मॉडल प्रशिक्षित करने के लिए चाहते हैं।
classifier<-naiveBayes(trainingset[,2],as.factor(trainingset[,4]), laplace=1)
classifier$tables$x
साथ वर्गीकारक के तत्वों में देख रहे हैं मुझे लगता है कि सशर्त संभावनाओं calculated..There के विषय में खरीदें हर ट्वीट के लिए विभिन्न संभावनाओं कर रहे हैं, पकड़ो और Sell.So दूर तो अच्छा।
हालांकि साथ सेट जब मैं प्रशिक्षण की भविष्यवाणी:
predict(classifier, trainingset[,2], type="raw")
मैं एक वर्गीकरण जो आधारित है केवल एक-प्रायोरी संभावनाओं, जो हर ट्वीट होल्ड के रूप में वर्गीकृत किया गया है इसका मतलब है पर मिल (क्योंकि " पकड़ो "भावना के बीच सबसे बड़ा हिस्सा था)। इसलिए प्रत्येक ट्वीट में खरीदें, होल्ड और बेचना के लिए समान संभावनाएं हैं:
+--------------------------------------------------+
**Id | Buy | Hold | Sell**
1 |0.25 | 0.5 | 0.25
2 |0.25 | 0.5 | 0.25
3 |0.25 | 0.5 | 0.25
.. |..... | .... | ...
N |0.25 | 0.5 | 0.25
+--------------------------------------------------+
कोई विचार क्या मैं गलत कर रहा हूं? आपकी मदद की सराहना करें!
धन्यवाद
अभूतपूर्व प्रतिसाद का उपयोग कर सकते हैं। –
पुन: ट्वीट्स को शब्दों में परिवर्तित करना, इसे 'tm' टेक्स्ट खनन पैकेज (cran.r-project.org/web/packages/tm/) के साथ आर में भी आसानी से किया जा सकता है। प्रक्रिया को सरल बनाने के लिए इसमें कई टूल हैं जैसे स्टॉप शब्दों को हटाने (जैसे, "द", "इसे"), पूंजीकरण आदि। पैकेज में एक अच्छा [विग्नेट] है (http://cran.r-project.org/web/packages/tm/vignettes/ tm.pdf) खोज के लायक है। – Bryan