उपयोग मामले:छोटे डेटा सेट के लिए एसवीएम वर्गीकरण की संभावना (आत्मविश्वास) की गणना कैसे करें?
मैं प्रत्येक वर्ग में 3-10 के बारे में नमूने के साथ एक छोटे डाटासेट है। मैं आरबीएफ कर्नेल के साथ वर्गीकृत करने के लिए sklearn एसवीसी का उपयोग कर रहा हूं। I भविष्यवाणी कक्षा के साथ पूर्वानुमान के आत्मविश्वास की आवश्यकता है। मैंने predict_proba एसवीसी की विधि का उपयोग किया। मुझे इसके साथ अजीब परिणाम मिल रहे थे। मैंने थोड़ी सी खोज की और पाया कि यह केवल बड़े डेटासेट के लिए समझ में आता है।
इस प्रश्न को स्टैक Scikit-learn predict_proba gives wrong answers पर मिला।
प्रश्न के लेखक ने डेटासेट को गुणा करके सत्यापित किया, जिससे डेटासेट को डुप्लिकेट किया गया।
मेरे सवालों का:
1) अगर मैं के आधार पर अपने डाटासेट गुणा 100 कहते हैं, प्रत्येक नमूने 100 गुना होने की सुविधा देता है, यह "predict_proba" के "शुद्धता" बढ़ जाती है। इसके किन दुष्प्रभाव होंगे? Overfitting?
2) क्या कोई अन्य तरीका है कि मैं वर्गीकरण के विश्वास की गणना कर सकता हूं? हाइपरप्लेन से दूरी की तरह?
3) इस छोटे नमूना आकार के लिए, एसवीएम एक अनुशंसित एल्गोरिदम है या मुझे कुछ और चुनना चाहिए?
"आत्मविश्वास" से आपका क्या मतलब है?"वैसे भी, केवल 3 नमूने के साथ, आपके द्वारा चुने गए किसी भी चीज़ में आशा करने के लिए बहुत कुछ नहीं है। –
@ जुआनपा.र्रिविल्लगा क्लासिफायर कितना आश्वस्त है कि यह नमूना इस वर्ग से संबंधित है। प्लेट स्केलिंग या हाइपरप्लेन से दूरी? –
@juanpa के रूप में ने कहा - 3 नमूनों के साथ वास्तव में कुछ भी करने के लिए उचित नहीं है। विशेष रूप से एसवीएम को कोई समझ नहीं आता है (और अन्य सांख्यिकीय तरीकों का 99%)। आप 1-एनएन का उपयोग कर सकते हैं, जो कि बस "निकटतम लेबल को संलग्न करने का नियम है बिंदु ", लेकिन फिर से - प्रति वर्ग के 3 नमूने किसी भी सभ्य विश्लेषण के लिए बहुत छोटा रास्ता है। जब तक आपके पास हजारों वर्ग नहीं हैं, और उनके बीच एक संरचना है। – lejlot