5

में तंत्रिका नेटवर्क एम्बेडिंग के प्रदर्शन का मूल्यांकन मैं वर्गीकरण समस्या को हल कर रहा हूं। मैं इकाइयों के एक समूह (स्किप-ग्राम आर्किटेक्चर का उपयोग करके) के लिए अपने असुरक्षित तंत्रिका नेटवर्क को प्रशिक्षित करता हूं।केएनएन वर्गीकृत

तरह से मैं का मूल्यांकन, प्रशिक्षण डेटा से मान्यता डेटा में प्रत्येक बिंदु के लिए कश्मीर निकटतम पड़ोसियों खोज करने के लिए है। मैं निकटतम पड़ोसियों के लेबल के भारित योग (दूरी पर आधारित वजन) लेता हूं और सत्यापन डेटा के प्रत्येक बिंदु के उस स्कोर का उपयोग करता हूं।

अवलोकन - (- 600 अवधियों को, model 2 - 1400 अवधियों को और model 3 - model1 2000 अवधियों को) मैं अवधियों की संख्या में वृद्धि के रूप में, मेरी एयूसी समान मूल्यों पर k के छोटे मूल्यों लेकिन संतृप्त में सुधार।

इस व्यवहार की संभावित व्याख्या क्या हो सकती है?

enter image description here

CrossValidated से [Reposted]

+0

मैं दो श्रेणियों में ग्राहक समीक्षा वर्गीकृत करने की कोशिश कर रहा हूं। एंबेडिंग्स को वाक्य 2vec का उपयोग करके प्रशिक्षित किया जाता है। मैंने हडूप के लिए कस्टम केएनएन क्लासिफायरफायर लिखा है। – kampta

+0

क्या यह हो सकता है कि दो वर्गों के बीच पर्याप्त पृथक्करण न हो? उदाहरण के लिए, यदि यह किसी प्रकार का भावना विश्लेषण था तो हम अक्सर दोहरे नकारात्मक अभिव्यक्तियों का अनुभव करते हैं जो एक बेवकूफ वर्गीकरण को परेशान कर सकते हैं। –

+0

यदि ऐसे मामलों को वर्गीकृत करने में 'मॉडल 3' बेहतर है, तो क्या यह' मॉडल 1 'से बेहतर एयूसी नहीं होगा? – kampta

उत्तर

0

क्रॉस करने के लिए जाँच करता है, तो असंतुलित कक्षाएं एक मुद्दा है, एक SVM मॉडल फिटिंग का प्रयास करें। यदि यह एक बेहतर वर्गीकरण देता है (संभव है कि आपका एएनएन बहुत गहरा न हो) तो यह निष्कर्ष निकाला जा सकता है कि कक्षाओं को पहले संतुलित किया जाना चाहिए।

इसके अलावा, यह परिवर्तन करने के लिए कुछ कर्नेल फ़ंक्शंस आज़माएं कि यह परिवर्तन डेटा को रैखिक रूप से अलग करने योग्य बनाता है या नहीं?

संबंधित मुद्दे