2010-01-30 18 views
6

मैं कई अलग-अलग एल्गोरिदम का मूल्यांकन कर रहा हूं जिनकी नौकरी किसी घटना की संभावना की भविष्यवाणी करने के लिए है।यह निर्धारित करना कि दो त्रुटि मानों के बीच अंतर महत्वपूर्ण है

मैं बड़े-आश डेटासेट पर एल्गोरिदम का परीक्षण कर रहा हूं। मैं "रूट मीन स्क्वायर एरर" का उपयोग करके अपनी प्रभावशीलता को मापता हूं, जो स्क्वायर (त्रुटियों का योग) वर्ग का वर्ग रूट है। त्रुटि पूर्वानुमानित संभावना (0 और 1 के बीच एक फ़्लोटिंग पॉइंट मान) और वास्तविक परिणाम (या तो 0.0 या 1.0) के बीच का अंतर है।

तो मुझे आरएमएसई पता है, और एल्गोरिदम पर परीक्षण किए गए नमूने की संख्या भी है।

समस्या यह है कि कभी-कभी आरएमएसई मूल्य एक-दूसरे के करीब होते हैं, और मुझे यह निर्धारित करने का एक तरीका चाहिए कि उनके बीच का अंतर सिर्फ मौका है, या यदि यह प्रदर्शन में वास्तविक अंतर का प्रतिनिधित्व करता है।

आदर्श रूप से, आरएमएसई मूल्यों की एक जोड़ी के लिए, मैं जानना चाहता हूं कि संभावना क्या है कि एक दूसरे की तुलना में वास्तव में बेहतर है, ताकि मैं इस संभावना को महत्व के दहलीज के रूप में उपयोग कर सकूं।

उत्तर

4

आप न केवल गणना बल्कि दर्शन के विशाल और विवादास्पद क्षेत्र में प्रवेश कर रहे हैं। महत्व परीक्षण और मॉडल चयन Bayesians और Frequentists के बीच गहन असहमति के विषय हैं। प्रशिक्षण और सत्यापन सेट में डेटा सेट को विभाजित करने के बारे में ट्रिस्टन की टिप्पणी बेयसियन को खुश नहीं करेगी।

मई मैं सुझाव देता हूं कि आरएमएसई संभावनाओं के लिए उपयुक्त स्कोर नहीं है। यदि नमूने स्वतंत्र हैं, तो उचित स्कोर वास्तविक परिणामों को आवंटित संभावनाओं के लॉगेरिथम का योग है। (यदि वे स्वतंत्र नहीं हैं, तो आपके हाथों पर गड़बड़ है।) जो मैं वर्णन कर रहा हूं वह "प्लग-इन" मॉडल स्कोर कर रहा है। उचित बेयसियन मॉडलिंग को मॉडल पैरामीटर पर एकीकृत करने की आवश्यकता होती है, जो कम्प्यूटेशनल रूप से बेहद मुश्किल है। एक प्लग-इन मॉडल को विनियमित करने के लिए एक बेयसियन तरीका असंभव (बड़े) मॉडल पैरामीटर के लिए स्कोर में जुर्माना जोड़ना है।इसे "वजन क्षय" कहा जाता है।

क्रिस्टोफर बिशप द्वारा पैटर्न पहचान पैटर्न पहचान के लिए तंत्रिका नेटवर्क पढ़ने के मेरे रास्ते पर मैंने शुरुआत की। मैंने इसका इस्तेमाल किया और प्रैक्टिकल ऑप्टिमाइज़ेशन गिल द्वारा एट अल सॉफ़्टवेयर लिखने के लिए जो मेरे लिए बहुत अच्छा काम करता है।

+0

मेरी अपनी टिप्पणी पर टिप्पणी करते हुए। "उचित स्कोर" एक शब्द बहुत मजबूत है। वह स्कोर अक्सर उपयुक्त होता है, लेकिन आपको लागत स्कोर की आवश्यकता हो सकती है जो उचित वर्गीकरण से लाभ और झूठी वर्गीकरण से होने वाली हानि को ध्यान में रखती है। यह एक गहरी विषय है।महत्वपूर्ण निर्णयों के लिए मॉडल पर निर्भर न हों जबतक कि आप वास्तव में नहीं जानते कि आप क्या कर रहे हैं, और आप वास्तव में समझते हैं कि आपका डेटा सेट उस डेटा के वितरण से संबंधित है जो आप मूल्यांकन करेंगे। अब साबैबॉक्स को डिसमउंट करना। –

+0

मैं पूरी तरह से Bayesian हूँ। लेकिन सवाल यह देखते हुए, आउट-ऑफ-नमूना त्रुटियों का उपयोग करते हुए एक लगातार टी-टेस्ट निश्चित रूप से सांख्यिकीय रूप से रक्षात्मक होता है और उसे अच्छे उत्तर देना चाहिए। यह स्पष्ट नहीं है कि बेयसियन समाधान सभी व्यवहार्य है; प्रश्नकर्ता मौजूदा, गैर-बेयसियन, आकलन प्रक्रियाओं का उपयोग कर रहा है और एमएसई के बारे में परवाह नहीं करता है, यह मॉडल फिट मानदंड नहीं है। – Tristan

+0

@ ट्रिस्टन। समझ लिया। लेकिन क्या एमएसई संभावना आउटपुट के लिए उचित है? क्या लॉगरिदमिक त्रुटि स्कोर के लिए कोई एनालॉग छात्र टी है? –

7

एमएसई औसत है और इसलिए केंद्रीय सीमा प्रमेय लागू होता है। तो परीक्षण करें कि दो एमएसई समान हैं या नहीं, यह जांच के समान है कि दो साधन बराबर हैं या नहीं। दो माध्यमों की तुलना में एक मानक परीक्षण की तुलना में एक कठिनाई यह है कि आपके नमूने सहसंबंधित हैं - दोनों एक ही घटना से आते हैं। लेकिन एमएसई में एक अंतर differenced squared त्रुटियों के साधन के समान है (साधन रैखिक हैं)।

  1. प्रत्येक x के लिए एक त्रुटि e गणना प्रक्रिया 1 और चुकता त्रुटियों (e2^2-e1^2) की 2.
  2. कंप्यूट अंतर के लिए: इस की गणना इस प्रकार एक one-sample t-test के रूप में पता चलता है।
  3. मतभेदों के माध्य की गणना करें।
  4. मतभेदों के मानक विचलन की गणना करें।
  5. mean/(sd/sqrt(n)) के रूप में एक टी-आंकड़े की गणना करें।
  6. अपने टी-आंकड़े को एक महत्वपूर्ण मूल्य से तुलना करें या पी-वैल्यू की गणना करें। उदाहरण के लिए, |t|>1.96 पर 5% आत्मविश्वास स्तर पर समानता को अस्वीकार करें।

आरएमएसई एमएसई का एक monotonic परिवर्तन है इसलिए इस परीक्षण को काफी अलग परिणाम नहीं देना चाहिए। लेकिन यह मानने के लिए सावधान रहें कि एमआरएसई आरएमएसई है।

एक बड़ी चिंता अधिक होनी चाहिए। अपने मॉडल का अनुमान लगाने के लिए उपयोग नहीं किए गए डेटा का उपयोग करके अपने सभी एमएसई आंकड़ों की गणना करना सुनिश्चित करें।

+0

स्क्वायर त्रुटियों के अंतर को कुल करने के लिए यह थोड़ा अजीब है, क्योंकि मुझे वास्तव में एक बार में 2 से अधिक एल्गोरिदम का परीक्षण करने की आवश्यकता है। क्या ऐसा करने का कोई तरीका है जहां इनपुट परीक्षण (एन), और दो आरएमएसई मूल्यों की संख्या है? – sanity

+0

पहले differencing का लाभ यह है कि आप covariance शर्तों की गणना करने की आवश्यकता से बचें। समस्या यह है कि cov (e1, e2)! = 0, तो एक मानक टी-टेस्ट काम नहीं करेगा। यदि आपके पास केवल दो आरएमएसई मान हैं तो आपको कॉन्वर्सिस नहीं पता है, इसलिए आप किसी टेस्ट आंकड़े को आसानी से गणना नहीं कर पाएंगे। यदि आप कई बार इन प्रक्रियाओं को चला सकते हैं, तो आप बूटस्ट्रैपिंग पर विचार करना चाहेंगे। इससे आपको सांख्यिकीय रूप से रक्षात्मक लेकिन सरल फैशन में इच्छित किसी भी आंकड़े का आसानी से उपयोग करने की अनुमति मिल जाएगी। – Tristan

+0

"बूटस्ट्रैपिंग" से आपका क्या मतलब है? मुझे लगता है कि मैंने वास्तव में समस्या को बहुत अच्छी तरह से नहीं बताया था। असल में मेरे पास सैकड़ों एल्गोरिदम हो सकते हैं और मुझे सबसे अच्छी पहचान करने की आवश्यकता है, इसलिए मुझे नहीं पता कि कौन से एल्गोरिदम की तुलना एक दूसरे से की जानी चाहिए जब तक कि मैं पहले से ही परीक्षण चला चुका हूं और परिणाम रिकॉर्ड नहीं करता हूं: -/ – sanity

0

मैं टिप्पणियों में सवालों के जवाब में प्रतिक्रिया दे रहा हूं। टिप्पणी में संभाल करने के लिए विषय बहुत बड़ा है।

क्लिफ नोट्स संस्करण।

हम जिस प्रकार के स्कोर मापने की संभावनाओं के बारे में बात कर रहे हैं, उसके प्रकार। (चाहे आप जो भी कर रहे हैं उसके लिए उपयुक्त है, एक और सवाल है।) यदि आप मानते हैं कि नमूने स्वतंत्र हैं, तो आप सभी संभावनाओं को एक साथ जोड़कर "कुल" संभावना प्राप्त करते हैं। लेकिन आमतौर पर यह बेहद कम संख्या में परिणाम देता है, इसलिए समकक्ष, आप संभावनाओं के लॉगेरिथम जोड़ते हैं। बड़ा है अच्छा है। शून्य सही है।

सर्वव्यापी-त्रुटि त्रुटि, -x^2, जहां एक्स मॉडल की त्रुटि है, (अक्सर अनुचित) धारणा से आता है कि प्रशिक्षण डेटा में अवलोकन (माप) "गॉसियन शोर" से दूषित होता है। यदि आप गाऊशियन (उर्फ सामान्य) वितरण की परिभाषा में विकिपीडिया या कुछ देखते हैं, तो आप पाएंगे कि इसमें शब्द e^(- x^2) है। उस का प्राकृतिक लघुगणक लें, और voila !, -x^2। लेकिन आपके मॉडल माप के लिए सबसे अधिक संभावना "पूर्व शोर" मान नहीं बनाते हैं। वे सीधे संभावनाएं उत्पन्न करते हैं। इसलिए करने की बात यह है कि मनाई गई घटनाओं को आवंटित संभावनाओं के लॉगेरिथम को जोड़ना। उन अवलोकनों को शोर-मुक्त माना जाता है। यदि प्रशिक्षण डेटा कहता है कि ऐसा हुआ, तो ऐसा हुआ।

आपका मूल प्रश्न अनुत्तरित रहता है। कैसे बताएं कि दो मॉडल "महत्वपूर्ण" हैं या नहीं? यह एक अस्पष्ट और कठिन सवाल है। यह बहुत बहस और यहां तक ​​कि भावना और रानर का विषय है। यह वास्तव में वह प्रश्न भी नहीं है जिसे आप उत्तर देना चाहते हैं। आप जो जानना चाहते हैं वह यह है कि कौन सा मॉडल आपको सबसे अच्छा अपेक्षित लाभ देता है, सभी चीजों को माना जाता है, जिसमें प्रत्येक सॉफ़्टवेयर पैकेज की लागत आदि शामिल हैं।

मुझे इसे जल्द ही तोड़ना होगा। यह मॉडलिंग और संभावना पर एक कोर्स के लिए जगह नहीं है, और मैं वास्तव में प्रोफेसर के रूप में योग्य नहीं हूँ।

संबंधित मुद्दे