2012-07-31 11 views
6

यदि मैं एक लर्ज प्रशिक्षण सेट पर एक एसवीएम प्रशिक्षण दे रहा हूं और यदि कक्षा चर या तो सत्य या गलत है, तो प्रशिक्षण सेट में गलत मूल्यों की संख्या के मुकाबले बहुत कम ट्रू वैल्यू होंगे, प्रशिक्षण मॉडल/परिणामों को प्रभावित करते हैं? क्या वे बराबर होना चाहिए? यदि मेरे प्रशिक्षण सेट में सही और गलत का बराबर वितरण नहीं है, तो मैं इस तरह की देखभाल कैसे करूं कि मेरा प्रशिक्षण यथासंभव कुशलतापूर्वक किया जा सके?आप एसवीएम में डेटा असंतुलन को कैसे संभालेंगे?

उत्तर

3

असंतुलित डेटा होना ठीक है, क्योंकि एसवीएम कम त्रुटि वाले उदाहरण (उदाहरण के लिए "आपके मामले में" सही ") से संबंधित गलत वर्गीकरण त्रुटियों को अधिक जुर्माना देने में सक्षम होना चाहिए, जिसके परिणामस्वरूप बराबर त्रुटि वजन आवंटित किया जाता है अवांछनीय वर्गीकरण जो बहुमत के लिए सबकुछ निर्दिष्ट करता है। हालांकि, आप शायद संतुलित डेटा के साथ बेहतर परिणाम प्राप्त करेंगे। यह सब वास्तव में आपके डेटा पर निर्भर करता है।

आप अधिक संतुलित डेटा प्राप्त करने के लिए कृत्रिम रूप से डेटा को स्कू कर सकते हैं। आप इस पेपर की जांच क्यों नहीं करते: http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF

2

मेरा अनुभव यह है कि मानक एसवीएम क्लासिफायर वास्तव में असंतुलित डेटा पर अच्छी तरह से काम नहीं करते हैं। मुझे सामना करना पड़ा कि सी-एसवीएम के लिए और यह एनयू-एसवीएम के लिए भी बदतर है। शायद आप P-SVM पर एक नज़र डालना चाहते हैं जो एक ऐसा मोड प्रदान करता है जो असंतुलित डेटा के लिए विशेष रूप से उपयुक्त है।

संबंधित मुद्दे