अच्छा आरओसी वक्र लेकिन खराब परिशुद्धता-याद वक्र

मेरे पास कुछ मशीन सीखने के परिणाम हैं जो मुझे समझ में नहीं आता है। मैं पाइथन विज्ञान-सीखने का उपयोग कर रहा हूं, जिसमें लगभग 14 फीचर्स के 2+ मिलियन डेटा हैं। 'Ab' का वर्गीकरण सटीक-याद वक्र पर बहुत बुरा लगता है, लेकिन एबी के लिए आरओसी उतना ही अच्छा लगता है जितना कि अधिकांश अन्य समूहों के वर्गीकरण के रूप में। क्या समझा सकता है?अच्छा आरओसी वक्र लेकिन खराब परिशुद्धता-याद वक्र

स्रोत

2015-10-23 KubiK888

क्या आपका सेट संतुलित है? (यानी गैर-एबी के रूप में कई एबी) – Calimo

नहीं, यह बहुत असंतुलित है, अब 2% से कम – KubiK888

से कम है। इस मुद्दे को कम करने के लिए oversampling का प्रयास करें। – Calimo

कक्षा असंतुलन।

आरओसी वक्र के विपरीत, पीआर घटता असंतुलन के प्रति बहुत संवेदनशील हैं। यदि आप असंतुलित डेटा पर अच्छे एयूसी के लिए अपने वर्गीकृत को अनुकूलित करते हैं तो आपको खराब परिशुद्धता-याद परिणामों को प्राप्त करने की संभावना है।

स्रोत

2015-10-23 07:40:12 Calimo

मैं देखता हूं, लेकिन परीक्षण के प्रदर्शन के संदर्भ में इसका वास्तव में क्या अर्थ है? क्या यह अच्छा है (आरओसी पर आधारित) या बुरा (पी-आर के आधार पर)? उपर्युक्त पी-आर वक्र में यदि परीक्षण सबसे अच्छा हो सकता है तो परीक्षण कैसे अच्छा हो सकता है, दोनों परिशुद्धता और याद के लिए 40% है? – KubiK888

इसका मतलब है कि जब आप असंतुलित डेटा पर परीक्षण के प्रदर्शन की रिपोर्ट करते हैं तो आपको सावधान रहना होगा। चिकित्सा अनुप्रयोगों में इसका एक भयानक प्रभाव हो सकता है (टेक्स्टबुक केस के रूप में एड्स परीक्षण देखें), दूसरों में यह ठीक हो सकता है, यह वास्तव में आपके विशिष्ट एप्लिकेशन पर निर्भर करता है। – Calimo

मैंने डिफ़ॉल्ट सेटिंग को ट्विक नहीं किया क्योंकि मैं विज्ञान सीखने का उपयोग कर रहा हूं, लेकिन जैसा कि आपने कहा है कि यह एयूसी के आधार पर अनुकूलित करने लगता है, क्या असंतुलित डेटा में प्रेसिजन/रिकॉल जोड़ी के आधार पर अनुकूलित करने का कोई तरीका है? – KubiK888

अच्छा आरओसी वक्र लेकिन खराब परिशुद्धता-याद वक्र

उत्तर

संबंधित मुद्दे