मुझे पता है कि यह कुछ समय पहले पूछा गया है, लेकिन मैं इसका उत्तर देना चाहूंगा क्योंकि आप मेरा जवाब उपयोगी पा सकते हैं।
जैसा कि अन्य ने उल्लेख किया है, आप अल्पसंख्यक वर्गों के लिए अलग-अलग वजन का उपयोग करने या विभिन्न गलत वर्गीकरण दंड का उपयोग करने पर विचार करना चाहेंगे। हालांकि, असंतुलित डेटासेट से निपटने का एक और चालाक तरीका है।
आप (ver-नमूने ते chnique एस ynthetic एम inority हे) एल्गोरिथ्म अल्पसंख्यक वर्ग के लिए संश्लेषित डेटा उत्पन्न करने ऐसा मारा उपयोग कर सकते हैं। यह एक साधारण एल्गोरिदम है जो कुछ असंतुलन डेटासेट्स से बहुत अच्छी तरह से निपट सकता है।
एल्गोरिदम के प्रत्येक पुनरावृत्ति में, SMOTE अल्पसंख्यक वर्ग के दो यादृच्छिक उदाहरणों को मानता है और बीच में कहीं भी उसी वर्ग का कृत्रिम उदाहरण जोड़ता है। एल्गोरिदम नमूने के साथ डेटासेट इंजेक्शन रखता है जब तक कि दो वर्ग संतुलित न हों या कुछ अन्य मानदंड (उदा। उदाहरणों की कुछ संख्या जोड़ें)। नीचे आप 2 डी फीचर स्पेस में एक सरल डेटासेट के लिए एल्गोरिदम क्या करता है इसका वर्णन करने वाली एक तस्वीर पा सकते हैं।
अल्पसंख्यक वर्ग के साथ वजन संबद्ध करना इस एल्गोरिदम का एक विशेष मामला है। उदाहरण के साथ जब आप वजन $ w_i $ जोड़ते हैं, तो आप मूल रूप से उदाहरण के शीर्ष पर अतिरिक्त $ w_i - 1 $ उदाहरण जोड़ रहे हैं!
आपको क्या करने की जरूरत है इस एल्गोरिथ्म द्वारा बनाई गई नमूनों के साथ अपने प्रारंभिक डाटासेट बढ़ाने, और इस नए डाटासेट साथ SVM प्रशिक्षित करने के लिए है। आप पाइथन और मैटलैब जैसी विभिन्न भाषाओं में ऑनलाइन कई कार्यान्वयन भी पा सकते हैं।
इस एल्गोरिदम के अन्य एक्सटेंशन रहे हैं, यदि आप चाहें तो मैं आपको अधिक सामग्री के लिए इंगित कर सकता हूं।
वर्गीकारक यदि आप परीक्षण और ट्रेन में डाटासेट विभाजित ट्रेन सेट करने के लिए सिंथेटिक उदाहरणों जोड़ने (परीक्षण सेट को नहीं जोड़ते हैं) की जरूरत है,, ट्रेन सेट पर मॉडल ट्रेन का परीक्षण करने के लिए और अंत में परीक्षण सेट पर इसका परीक्षण करें। यदि आप परीक्षण करते समय जेनरेट किए गए उदाहरणों पर विचार करते हैं तो आप पूर्वाग्रह (और हास्यास्पद उच्च) सटीकता और याद के साथ समाप्त हो जाएंगे।
वहाँ FAQ पृष्ठ जो हो सकता है में मदद करता है में एक ऐसी ही सवाल यह है: प्रश्न: मेरा डेटा असंतुलित कर रहे हैं। Libsvm ऐसी समस्याओं को संभाल सकता है? http://www.csie.ntu.edu.tw/~cjlin/libsvm/faq.html#f410 – McKelvin