मैं कई अलग-अलग एल्गोरिदम का मूल्यांकन कर रहा हूं जिनकी नौकरी किसी घटना की संभावना की भविष्यवाणी करने के लिए है।यह निर्धारित करना कि दो त्रुटि मानों के बीच अंतर महत्वपूर्ण है
मैं बड़े-आश डेटासेट पर एल्गोरिदम का परीक्षण कर रहा हूं। मैं "रूट मीन स्क्वायर एरर" का उपयोग करके अपनी प्रभावशीलता को मापता हूं, जो स्क्वायर (त्रुटियों का योग) वर्ग का वर्ग रूट है। त्रुटि पूर्वानुमानित संभावना (0 और 1 के बीच एक फ़्लोटिंग पॉइंट मान) और वास्तविक परिणाम (या तो 0.0 या 1.0) के बीच का अंतर है।
तो मुझे आरएमएसई पता है, और एल्गोरिदम पर परीक्षण किए गए नमूने की संख्या भी है।
समस्या यह है कि कभी-कभी आरएमएसई मूल्य एक-दूसरे के करीब होते हैं, और मुझे यह निर्धारित करने का एक तरीका चाहिए कि उनके बीच का अंतर सिर्फ मौका है, या यदि यह प्रदर्शन में वास्तविक अंतर का प्रतिनिधित्व करता है।
आदर्श रूप से, आरएमएसई मूल्यों की एक जोड़ी के लिए, मैं जानना चाहता हूं कि संभावना क्या है कि एक दूसरे की तुलना में वास्तव में बेहतर है, ताकि मैं इस संभावना को महत्व के दहलीज के रूप में उपयोग कर सकूं।
मेरी अपनी टिप्पणी पर टिप्पणी करते हुए। "उचित स्कोर" एक शब्द बहुत मजबूत है। वह स्कोर अक्सर उपयुक्त होता है, लेकिन आपको लागत स्कोर की आवश्यकता हो सकती है जो उचित वर्गीकरण से लाभ और झूठी वर्गीकरण से होने वाली हानि को ध्यान में रखती है। यह एक गहरी विषय है।महत्वपूर्ण निर्णयों के लिए मॉडल पर निर्भर न हों जबतक कि आप वास्तव में नहीं जानते कि आप क्या कर रहे हैं, और आप वास्तव में समझते हैं कि आपका डेटा सेट उस डेटा के वितरण से संबंधित है जो आप मूल्यांकन करेंगे। अब साबैबॉक्स को डिसमउंट करना। –
मैं पूरी तरह से Bayesian हूँ। लेकिन सवाल यह देखते हुए, आउट-ऑफ-नमूना त्रुटियों का उपयोग करते हुए एक लगातार टी-टेस्ट निश्चित रूप से सांख्यिकीय रूप से रक्षात्मक होता है और उसे अच्छे उत्तर देना चाहिए। यह स्पष्ट नहीं है कि बेयसियन समाधान सभी व्यवहार्य है; प्रश्नकर्ता मौजूदा, गैर-बेयसियन, आकलन प्रक्रियाओं का उपयोग कर रहा है और एमएसई के बारे में परवाह नहीं करता है, यह मॉडल फिट मानदंड नहीं है। – Tristan
@ ट्रिस्टन। समझ लिया। लेकिन क्या एमएसई संभावना आउटपुट के लिए उचित है? क्या लॉगरिदमिक त्रुटि स्कोर के लिए कोई एनालॉग छात्र टी है? –