2009-12-09 12 views
5

की व्याख्या कैसे करें मैं वर्तमान में मशीन सीखने की समस्या से जूझ रहा हूं जबकि मुझे बहुत असंतुलित डेटा सेट से निपटना है। यही है, छह वर्ग हैं ('1', '2' ... '6')। दुर्भाग्य से उदा। वर्ग '1' 150 उदाहरण/उदाहरणों के लिए, '2' 9 0 उदाहरणों के लिए और केवल '3' वर्ग के लिए 20. अन्य सभी वर्गों को "प्रशिक्षित" नहीं किया जा सकता है क्योंकि इन कक्षाओं के लिए कोई उपलब्ध उदाहरण नहीं हैं।WEKA का नमूना फ़िल्टर करें - परिणाम

अब तक, मुझे पता चला है कि WEKA (मशीन सीखने टूलकिट जिसका मैं उपयोग कर रहा हूं) इस पर्यवेक्षित "अनुकरण" फ़िल्टर प्रदान करता है। जब मैं इस फ़िल्टर को 'नो रिप्लेसमेंट' = झूठी और 'bialToUniformClass' = 1.0 के साथ लागू करता हूं तो यह परिणाम डेटा सेट में होता है, जहां उदाहरणों की संख्या अच्छी होती है और लगभग बराबर होती है (कक्षा '1' के लिए .. '3' और अन्य खाली रहो)।

मेरा प्रश्न अब है: WEKA और यह फ़िल्टर विभिन्न वर्गों के लिए "नया"/अतिरिक्त उदाहरण कैसे उत्पन्न करता है।

किसी भी संकेत या सुझाव के लिए आपको बहुत पहले धन्यवाद।

चीयर्स जूलियन

उत्तर

2

WEKA की देखरेख रीसेंपल फिल्टर का उपयोग करते हुए एक वर्ग के लिए उदाहरणों कहते हैं। यह कक्षा से उदाहरण जोड़ने के द्वारा महसूस किया गया है जिसमें परिणाम डेटा सेट में केवल कुछ उदाहरण हैं।

इसलिए परिणामी डेटा सेट एक वर्ग के संदर्भ में दृढ़ता से पक्षपातपूर्ण है जिसके लिए केवल कुछ नमूने उपलब्ध हैं।

1

ऐसा नहीं है। यह मौजूदा उदाहरणों को दोबारा शुरू कर रहा है। यदि आपके पास एक वर्ग -2 उदाहरण है, और 1.0 की पूर्वाग्रह के साथ पुन: प्रयास करने के लिए कहें, तो आप उस उदाहरण की एन प्रतियां और एक दूसरे के अन्य उदाहरणों की अपेक्षा कर सकते हैं जिनके लिए पहले से ही डेटा है।

1

प्रीप्रोसेस पर SMOTE फ़िल्टर के साथ प्रयास करें।

यह नाबालिग वर्ग के लिए नया डेटा उत्पन्न करके अपने डेटासेट को संतुलित करता है।

संबंधित मुद्दे