2012-08-31 19 views
5

मैं libsvm के लिए अजगर इंटरफ़ेस का उपयोग कर रहा हूँ के अनुपात, और क्या मैं देख रहा हूँ है के रूप में ही है कि सबसे अच्छा C और gamma मानकों (RBF गिरी) का चयन, ग्रिड खोज का उपयोग कर जब मैं के बाद मॉडल को प्रशिक्षित करने और पार उसे सत्यापित करने में (5 गुना, अगर यह प्रासंगिक है), सटीकता मैं प्राप्त है कि मेरे प्रशिक्षण डेटा सेट में लेबल के अनुपात के समान है।libsvm - क्रॉस मान्यता सटीकता लेबल

मैं 3947 नमूने, और उनमें से 2898 लेबल -1 है, और बाकी लेबल 1. ताकि नमूनों की 73.4229% है की है।

optimization finished, #iter = 1529 
nu = 0.531517 obj = -209.738688, 
rho = 0.997250 nSV = 1847, nBSV = 1534 
Total nSV = 1847 
Cross Validation Accuracy = 73.4229% 

इसका मतलब यह है कि SVM खाते में सुविधाओं नहीं ले रही है -

और जब मैं मॉडल को प्रशिक्षित करने और पार उसे सत्यापित करने में 5 गुना, यह मैं क्या मिलता है? या यह गलती पर डेटा है? क्या वे दोनों बिल्कुल संबंधित हैं? मैं इसे 73.422 9 नंबर से पहले प्राप्त नहीं कर पा रहा हूं। साथ ही, समर्थन वैक्टरों की संख्या डेटासेट के आकार से बहुत कम होने वाली है, लेकिन इस मामले में, ऐसा प्रतीत नहीं होता है।

सामान्य तौर पर, इसका क्या मतलब है जब पार सत्यापन सटीकता डाटासेट में लेबल के अनुपात के रूप में ही है?

उत्तर

6

आपका डेटा सेट जिसका अर्थ है कि एक बड़ा प्रतिशत एक ही कक्षा की है असंतुलित है। इसका परिणाम डिफ़ॉल्ट या बहु-वर्ग वर्गीकरण कहलाता है, जहां बहुमत वर्ग के हिस्से के रूप में सबकुछ वर्गीकृत करके उच्च सटीकता प्राप्त की जाती है। तो आप सही हैं कि डेटा की वजह से यह विशेषताओं को ध्यान में नहीं ले रहा है।

libsvm README दंड वजन अलग इस से निपटने के लिए पता चलता है। https://stats.stackexchange.com/questions/20948/best-way-to-handle-unbalanced-multiclass-dataset-with-svm

असंतुलित डेटा के बारे में अधिक जानकारी के लिए A User's Guide to Support Vector Machines की धारा 7 देखें: और यहाँ एक संबंधित सवाल है।

संबंधित मुद्दे