5

मेरे पास बड़ी संख्या में याल्प डेटा है और मुझे समीक्षाओं को 8 अलग-अलग श्रेणियों में वर्गीकृत करना है।
श्रेणियाँ
कौन सा वर्गीकरण चुनने के लिए?

Cleanliness 
Customer Service 
Parking 
Billing 
Food Pricing 
Food Quality 
Waiting time 
Unspecified 


समीक्षा कई श्रेणियों तो मैं multilable वर्गीकरण का इस्तेमाल किया है शामिल हैं। लेकिन मैं उलझन में हूं कि मैं सकारात्मक/नकारात्मक कैसे संभाल सकता हूं। उदाहरण समीक्षा खाद्य गुणवत्ता के लिए सकारात्मक हो सकती है लेकिन ग्राहक सेवा के लिए नकारात्मक हो सकती है। पूर्व- food taste was very good but staff behaviour was very bad. so review contains positive food quality but negative Customer service मैं इस मामले को कैसे संभाल सकता हूं? क्या मुझे वर्गीकरण से पहले भावनात्मक विश्लेषण करना चाहिए? कृपया मेरी मदद करें

+4

इस प्रकार की समस्या को पहलू आधारित भावना विश्लेषण कहा जाता है। आप उस नाम के साथ कागजात के लिए Google कर सकते हैं। इसके अलावा, पहलू आधारित भावना विश्लेषण के लिए सेमेवल कार्य देखें। –

+2

आप कस्टम लेबल जैसे (अच्छी खाद्य समीक्षा, खराब भोजन समीक्षा, अच्छी ग्राहक सेवा, खराब ग्राहक सेवा इत्यादि) बना सकते हैं। शायद यह मदद कर सकता है: - http://scikit-learn.org/stable/modules/multiclass.html#multioutput-classification –

+0

पूछने के लिए गलत स्थान, बल्कि https://stats.stackexchange.com पर जाएं – Sentry

उत्तर

-1

बहु लेबल वर्गीकरण करने के कई तरीके हैं।

सबसे सरल व्यक्ति प्रत्येक वर्ग के लिए एक मॉडल होगा, और यदि समीक्षा उस लेबल के लिए एक निश्चित थ्रेसहोल्ड स्कोर प्राप्त करती है, तो आप समीक्षा के लिए उस लेबल को लागू करेंगे।

यह कक्षाओं को स्वतंत्र रूप से इलाज करेगा, लेकिन यह आपकी समस्या का एक अच्छा समाधान जैसा लगता है।

0

हां आपको भावनात्मक विश्लेषण की आवश्यकता होगी। आप अपने डेटा के टोकन क्यों नहीं बनाते हैं, जो वाक्यों के लिए आवश्यक शब्द ढूंढते हैं, अब आपके लिए सबसे संभावित दृष्टिकोण उनके भावनाओं के साथ संबंधित शब्दों को ढूंढना है। यानी खाना अच्छा था, लेकिन सफाई उचित

इस मामले आप [भोजन, अच्छा, सफाई, नहीं, उचित] अपनी अगली अवधि और उसके अगले शब्दों के लिए सफाई के साथ अब भोजन लिंक "उचित नहीं"

है में नहीं था

फिर से आप दो वर्गों यानी 1,0 में वर्गीकृत कर सकते हैं अच्छे और बुरे के लिए .. या आप अपने मामले के आधार पर कक्षाएं जोड़ सकते हैं। तो फिर तुम जैसे डेटा होगा:

-------------------- 
FEATURE  | VAL 
-------------------- 
Cleanliness 0 
Customer  -1 
Service  -1 
Parking  -1 
Billing  -1 
Food Pricing -1 
Food Quality 1 
Waiting time -1 
Unspecified -1 

मैं इस दे दिया है सिर्फ एक उदाहरण है, जहां -1,1,0 कोई समीक्षा क्रमश: अच्छे और बुरे के लिए कर रहे हैं के रूप में। आप 0,1,2 खराब मेले के रूप में और अधिक श्रेणियां जोड़ सकते हैं मैं इसका जवाब देने में इतना अच्छा नहीं हो सकता, लेकिन यह मुझे इसके बारे में लगता है।

नोट: आपको यह समझने की आवश्यकता है कि मॉडल सही नहीं हो सकता है क्योंकि मशीन लर्निंग यही है, आपको गलत होना है। आपका मॉडल एक पूर्ण वर्गीकरण नहीं दे सकता है, इसे कुछ इनपुट के लिए गलत होना चाहिए, जो समय के साथ सीखेंगे और बेहतर होंगे।

1

मुझे लगता है कि आपका डेटा रेस्टोरेंट के समान है। इसमें प्रत्येक 100 (More information) में पहलू शर्तों की विविध संख्या के साथ लगभग 100 समीक्षाएं होती हैं।

1-पहलू अवधि निष्कर्षण

समीक्षा से पहलू शब्दों को निकालना: तो आप पहलू आधारित भावना विश्लेषण इस तरह उपयोग कर सकते हैं।

2-पहलू चुम्बकत्व जांच

एक वाक्य के भीतर पहलू पदों की एक दिए गए समूह के लिए, निर्धारित करें कि प्रत्येक पहलू अवधि की ध्रुवता सकारात्मक, नकारात्मक है।

पहलू श्रेणियों

पहलू श्रेणियों (जैसे, भोजन की गुणवत्ता, ग्राहक सेवा), दिए गए वाक्य में चर्चा पहलू श्रेणियों की पहचान की एक पूर्वनिर्धारित सेट को देखते हुए 3-पहचानें।

4-निर्धारण polarity

पहलू पूर्व की पहचान की श्रेणियों (जैसे, भोजन की गुणवत्ता, ग्राहक सेवा), प्रत्येक पहलू श्रेणी की ध्रुवीयता (सकारात्मक, नकारात्मक) का निर्धारण का एक सेट को देखते हुए।

इसी तरह के प्रोजेक्ट के बारे में अधिक जानकारी के लिए कृपया this देखें।

मुझे उम्मीद है कि यह आपकी मदद कर सकता है।

संबंधित मुद्दे