मुझे टेक्स्ट वर्गीकृत करने की आवश्यकता है और मैं इसे प्राप्त करने के लिए टेक्स्ट ब्लॉब पायथन मॉड्यूल का उपयोग कर रहा हूं। मैं या तो बेवकूफ बेयस वर्गीकरण/निर्णय पेड़ का उपयोग कर सकता हूं। मुझे नीचे उल्लिखित बिंदुओं के बारे में चिंता है।पायथन में टेक्स्ट वर्गीकरण - (एनएलटीके वाक्य आधारित)
1) मुझे वाक्य को तर्क/तर्क के रूप में वर्गीकृत करने की आवश्यकता है। मैं दो क्लासिफायरों का उपयोग कर रहा हूं और एपीटी डेटा सेट का उपयोग कर मॉडल को प्रशिक्षण दे रहा हूं। मेरा सवाल यह है कि मुझे मॉडल को केवल खोजशब्दों के साथ प्रशिक्षित करने की ज़रूरत है? या मैं सभी संभावित तर्क और गैर तर्क नमूना वाक्य के साथ डेटा सेट को प्रशिक्षित कर सकता हूं? टेक्स्ट वर्गीकरण सटीकता और पुनर्प्राप्ति के समय के मामले में कौन सा सबसे अच्छा तरीका होगा?
2) चूंकि वर्गीकरण या तो तर्क होगा/तर्क नहीं, कौन सा वर्गीकरण सटीक परिणाम प्राप्त करेगा? यह बेवकूफ बेयस/निर्णय पेड़/सकारात्मक बेकार बेयस है?
अग्रिम धन्यवाद।