5

मेरे पास कुछ मशीन सीखने के परिणाम हैं जो मुझे समझ में नहीं आता है। मैं पाइथन विज्ञान-सीखने का उपयोग कर रहा हूं, जिसमें लगभग 14 फीचर्स के 2+ मिलियन डेटा हैं। 'Ab' का वर्गीकरण सटीक-याद वक्र पर बहुत बुरा लगता है, लेकिन एबी के लिए आरओसी उतना ही अच्छा लगता है जितना कि अधिकांश अन्य समूहों के वर्गीकरण के रूप में। क्या समझा सकता है?अच्छा आरओसी वक्र लेकिन खराब परिशुद्धता-याद वक्र

enter image description here

enter image description here

+0

क्या आपका सेट संतुलित है? (यानी गैर-एबी के रूप में कई एबी) – Calimo

+0

नहीं, यह बहुत असंतुलित है, अब 2% से कम – KubiK888

+0

से कम है। इस मुद्दे को कम करने के लिए oversampling का प्रयास करें। – Calimo

उत्तर

8

कक्षा असंतुलन।

आरओसी वक्र के विपरीत, पीआर घटता असंतुलन के प्रति बहुत संवेदनशील हैं। यदि आप असंतुलित डेटा पर अच्छे एयूसी के लिए अपने वर्गीकृत को अनुकूलित करते हैं तो आपको खराब परिशुद्धता-याद परिणामों को प्राप्त करने की संभावना है।

+1

मैं देखता हूं, लेकिन परीक्षण के प्रदर्शन के संदर्भ में इसका वास्तव में क्या अर्थ है? क्या यह अच्छा है (आरओसी पर आधारित) या बुरा (पी-आर के आधार पर)? उपर्युक्त पी-आर वक्र में यदि परीक्षण सबसे अच्छा हो सकता है तो परीक्षण कैसे अच्छा हो सकता है, दोनों परिशुद्धता और याद के लिए 40% है? – KubiK888

+0

इसका मतलब है कि जब आप असंतुलित डेटा पर परीक्षण के प्रदर्शन की रिपोर्ट करते हैं तो आपको सावधान रहना होगा। चिकित्सा अनुप्रयोगों में इसका एक भयानक प्रभाव हो सकता है (टेक्स्टबुक केस के रूप में एड्स परीक्षण देखें), दूसरों में यह ठीक हो सकता है, यह वास्तव में आपके विशिष्ट एप्लिकेशन पर निर्भर करता है। – Calimo

+0

मैंने डिफ़ॉल्ट सेटिंग को ट्विक नहीं किया क्योंकि मैं विज्ञान सीखने का उपयोग कर रहा हूं, लेकिन जैसा कि आपने कहा है कि यह एयूसी के आधार पर अनुकूलित करने लगता है, क्या असंतुलित डेटा में प्रेसिजन/रिकॉल जोड़ी के आधार पर अनुकूलित करने का कोई तरीका है? – KubiK888

संबंधित मुद्दे