पायथन में टेक्स्ट वर्गीकरण - (एनएलटीके वाक्य आधारित)

मुझे टेक्स्ट वर्गीकृत करने की आवश्यकता है और मैं इसे प्राप्त करने के लिए टेक्स्ट ब्लॉब पायथन मॉड्यूल का उपयोग कर रहा हूं। मैं या तो बेवकूफ बेयस वर्गीकरण/निर्णय पेड़ का उपयोग कर सकता हूं। मुझे नीचे उल्लिखित बिंदुओं के बारे में चिंता है।पायथन में टेक्स्ट वर्गीकरण - (एनएलटीके वाक्य आधारित)

1) मुझे वाक्य को तर्क/तर्क के रूप में वर्गीकृत करने की आवश्यकता है। मैं दो क्लासिफायरों का उपयोग कर रहा हूं और एपीटी डेटा सेट का उपयोग कर मॉडल को प्रशिक्षण दे रहा हूं। मेरा सवाल यह है कि मुझे मॉडल को केवल खोजशब्दों के साथ प्रशिक्षित करने की ज़रूरत है? या मैं सभी संभावित तर्क और गैर तर्क नमूना वाक्य के साथ डेटा सेट को प्रशिक्षित कर सकता हूं? टेक्स्ट वर्गीकरण सटीकता और पुनर्प्राप्ति के समय के मामले में कौन सा सबसे अच्छा तरीका होगा?

2) चूंकि वर्गीकरण या तो तर्क होगा/तर्क नहीं, कौन सा वर्गीकरण सटीक परिणाम प्राप्त करेगा? यह बेवकूफ बेयस/निर्णय पेड़/सकारात्मक बेकार बेयस है?

अग्रिम धन्यवाद।

स्रोत

2014-04-20 sreram

आदर्श रूप से, it is said that the more you train your data, the 'better' your results हैं लेकिन यह वास्तव में निर्भर करता है कि आपने इसका परीक्षण किया है और इसे आपके द्वारा तैयार किए गए वास्तविक परिणामों से तुलना की है।

तो अपने प्रश्न का उत्तर देने के लिए, कीवर्ड के साथ मॉडल को प्रशिक्षण देने से आपको बहुत व्यापक परिणाम मिल सकते हैं जो तर्क नहीं हो सकते हैं। लेकिन वास्तव में, आपको इसकी तुलना कुछ करने की ज़रूरत है, इसलिए मेरा सुझाव है कि आप अपने मॉडल को कुछ वाक्य संरचना के साथ प्रशिक्षित करना चाहेंगे जो तर्कों का पालन करना प्रतीत होता है (किसी प्रकार का पैटर्न), यह उन तर्कों को खत्म कर सकता है जो तर्क नहीं हैं। दोबारा, ऐसा करें और फिर यह जांचें कि क्या आपको पिछले मॉडल की तुलना में उच्च सटीकता मिलती है या नहीं।

अपने अगले प्रश्न का उत्तर देने के लिए: पाठ वर्गीकरण सटीकता और पुनर्प्राप्ति के समय के मामले में कौन सा सबसे अच्छा तरीका होगा? यह वास्तव में आपके उपयोग के डेटा पर निर्भर करता है, मैं वास्तव में इस प्रश्न का उत्तर नहीं दे सकता क्योंकि आपको यह देखने के लिए क्रॉस-सत्यापन करना है कि आपका मॉडल उच्च सटीकता प्राप्त करता है या नहीं। जाहिर है, आप जितनी अधिक सुविधाएं देख रहे हैं, उतना ही गरीब आपके सीखने वाले एल्गोरिदम के प्रदर्शन। और यदि आप विश्लेषण के लिए टेक्स्ट के गीगाबाइट से निपट रहे हैं, तो मैं इस काम को करने के लिए मैप्रिडिस का उपयोग करने का सुझाव देता हूं।

आप अपने सीखने के मॉडल के रूप में एसवीएम को देखना चाहते हैं, सीखने के मॉडल (बेवकूफ बेय, सकारात्मक बेवकूफ बेय और निर्णय पेड़) के साथ इसका परीक्षण करें और देखें कि कौन सा बेहतर प्रदर्शन करता है।

उम्मीद है कि इससे मदद मिलती है।

स्रोत

2015-04-18 14:03:36 macmania314

पायथन में टेक्स्ट वर्गीकरण - (एनएलटीके वाक्य आधारित)

उत्तर

संबंधित मुद्दे