केएनएन वर्गीकृत

में तंत्रिका नेटवर्क एम्बेडिंग के प्रदर्शन का मूल्यांकन मैं वर्गीकरण समस्या को हल कर रहा हूं। मैं इकाइयों के एक समूह (स्किप-ग्राम आर्किटेक्चर का उपयोग करके) के लिए अपने असुरक्षित तंत्रिका नेटवर्क को प्रशिक्षित करता हूं।केएनएन वर्गीकृत

तरह से मैं का मूल्यांकन, प्रशिक्षण डेटा से मान्यता डेटा में प्रत्येक बिंदु के लिए कश्मीर निकटतम पड़ोसियों खोज करने के लिए है। मैं निकटतम पड़ोसियों के लेबल के भारित योग (दूरी पर आधारित वजन) लेता हूं और सत्यापन डेटा के प्रत्येक बिंदु के उस स्कोर का उपयोग करता हूं।

अवलोकन - (- 600 अवधियों को, model 2 - 1400 अवधियों को और model 3 - model1 2000 अवधियों को) मैं अवधियों की संख्या में वृद्धि के रूप में, मेरी एयूसी समान मूल्यों पर k के छोटे मूल्यों लेकिन संतृप्त में सुधार।

इस व्यवहार की संभावित व्याख्या क्या हो सकती है?

CrossValidated से [Reposted]

स्रोत

2016-02-05 kampta

मैं दो श्रेणियों में ग्राहक समीक्षा वर्गीकृत करने की कोशिश कर रहा हूं। एंबेडिंग्स को वाक्य 2vec का उपयोग करके प्रशिक्षित किया जाता है। मैंने हडूप के लिए कस्टम केएनएन क्लासिफायरफायर लिखा है। – kampta

क्या यह हो सकता है कि दो वर्गों के बीच पर्याप्त पृथक्करण न हो? उदाहरण के लिए, यदि यह किसी प्रकार का भावना विश्लेषण था तो हम अक्सर दोहरे नकारात्मक अभिव्यक्तियों का अनुभव करते हैं जो एक बेवकूफ वर्गीकरण को परेशान कर सकते हैं। –

यदि ऐसे मामलों को वर्गीकृत करने में 'मॉडल 3' बेहतर है, तो क्या यह' मॉडल 1 'से बेहतर एयूसी नहीं होगा? – kampta

क्रॉस करने के लिए जाँच करता है, तो असंतुलित कक्षाएं एक मुद्दा है, एक SVM मॉडल फिटिंग का प्रयास करें। यदि यह एक बेहतर वर्गीकरण देता है (संभव है कि आपका एएनएन बहुत गहरा न हो) तो यह निष्कर्ष निकाला जा सकता है कि कक्षाओं को पहले संतुलित किया जाना चाहिए।

इसके अलावा, यह परिवर्तन करने के लिए कुछ कर्नेल फ़ंक्शंस आज़माएं कि यह परिवर्तन डेटा को रैखिक रूप से अलग करने योग्य बनाता है या नहीं?

स्रोत

2017-10-30 10:13:35 Outlier

केएनएन वर्गीकृत

उत्तर

संबंधित मुद्दे