2016-01-26 11 views
8

से अधिक है, मैंने धोखाधड़ी क्षेत्र में दस्तावेजों के बाइनरी वर्गीकरण के लिए कई मॉडल तैयार किए हैं। मैंने सभी मॉडलों के लिए लॉग लॉस की गणना की। मैंने सोचा कि यह अनिवार्य रूप से भविष्यवाणियों के विश्वास को माप रहा था और लॉग नुकसान [0-1] की सीमा में होना चाहिए। मेरा मानना ​​है कि यह वर्गीकरण में एक महत्वपूर्ण उपाय है जब परिणाम - कक्षा का निर्धारण मूल्यांकन उद्देश्यों के लिए पर्याप्त नहीं है। तो यदि दो मॉडल में एसीसी, रिकॉल और सटीक है जो काफी करीब हैं लेकिन किसी के पास कम लॉग-लॉस फ़ंक्शन है, तो इसे चुना जाना चाहिए क्योंकि निर्णय प्रक्रिया में कोई अन्य पैरामीटर/मेट्रिक्स (जैसे समय, लागत) नहीं है।लॉग लॉस आउटपुट 1

निर्णय पेड़ के लिए लॉग नुकसान 1.57 है, अन्य सभी मॉडलों के लिए यह 0-1 रेंज में है। मैं इस स्कोर की व्याख्या कैसे करूं?

उत्तर

20

लॉग लॉस को याद रखना महत्वपूर्ण है कि ऊपरी सीमा नहीं है। लॉग हानि सीमा पर मौजूद है [0,   ∞)

Kaggle से हम लॉग हानि के लिए एक सूत्र ढूंढ सकते हैं।

Log Loss

जिसमें yij और सही वर्ग के लिए 1 अन्य वर्गों के लिए 0 और पी है ij संभावना है कि वर्ग के लिए सौंपा है।

अगर हम इस मामले में जहां औसत लॉग नुकसान 1 से अधिक को देखो, यह तब होता है जब लॉग (पीij) < -1 जब मैं सच वर्ग है। इसका मतलब है कि उस दिए गए वर्ग के लिए अनुमानित संभावना exp (-1) या लगभग 0.368 से कम होगी। इसलिए, इस मामले में एक से अधिक से अधिक लॉग हानि देखने की उम्मीद की जा सकती है कि आपका मॉडल केवल वास्तविक वर्ग के लिए 36% संभावना अनुमान से कम देता है।

हम विभिन्न संभावना अनुमानों के कारण लॉग हानि की साजिश करके इसे भी देख सकते हैं।

Log Loss curve

+0

आपके संपूर्ण उत्तर के लिए धन्यवाद! – OAK

संबंधित मुद्दे