2015-12-22 8 views
6

मैं कुछ कण भौतिकी विश्लेषण कर रहा हूं और उम्मीद कर रहा था कि वहां कोई मुझे गॉसियन-प्रोसेस फिट पर कुछ अंतर्दृष्टि दे सकता है, मैं कुछ डेटा निकालने के लिए उपयोग करने की कोशिश कर रहा हूं ।गाऊशियन-प्रोसेस (scikit-learn) भविष्यवाणी विश्वास अंतराल विषमताएं

मेरे पास अनिश्चितता के साथ डेटा है जो मैं विज्ञान में सीख रहा हूं- गॉसियनप्रोसेस एल्गोरिदम सीखो। मैं "nugget" तर्क के माध्यम से अनिश्चितताओं को शामिल कर रहा हूं (मेरा कार्यान्वयन a standard example here से मेल खाता है जहां मेरा "corr" घातीय वर्ग है और "nugget" मान (dy/y) ** 2 पर सेट हैं)। मुख्य चिंता यह है: वितरण के किनारों पर मेरे पास कम पूर्ण अनिश्चितता (लेकिन उच्च आंशिक अनिश्चितता) है और यह इस क्षेत्र में अपेक्षाकृत अपेक्षाकृत आत्मविश्वास अंतराल का उत्पादन कर रहा है (नीचे साजिश देखें)।

Data point and GP regression

कारण अनिश्चितताओं इस तरह से व्यवहार करते हैं कि मैं कण भौतिकी डेटा जो अलग अलग सुविधा (एक्स) मूल्यों के साथ मनाया कणों की गिनती का एक हिस्टोग्राम है के साथ काम कर रहा हूँ है। ये मायने रखता है एक पोइसन वितरण का पालन करें और इस प्रकार sqrt (एन) की अनिश्चितता (मानक विचलन) है। तो वितरण के उच्च गिनती क्षेत्रों में उच्च पूर्ण, लेकिन कम आंशिक अनिश्चितता है, और इसके विपरीत निम्न गिनती क्षेत्रों के लिए।

जैसा कि मैंने उल्लेख किया है, मैं समझता हूं कि इस कार्य में "नगेट" तर्क में वर्ग (घातीय अनिश्चितता) के मूल्य होना चाहिए ** एक वर्ग घातीय कर्नेल के साथ काम करते समय। इसलिए यह समझ में आता है कि अगर अनुमानित अनिश्चितता इनपुट की एक आंशिक अनिश्चितता पर आधारित है कि यह किनारों पर बड़ी हो सकती है। लेकिन मैं समझ में नहीं आता कि यह गणित में कैसे खेलता है, और अनुमानित अनिश्चितता का आकार किनारों पर डेटा बिंदु अनिश्चितताओं से इतना बड़ा है कि यह मेरे लिए गलत लगता है।

क्या कोई यहां पर क्या हो रहा है इस पर टिप्पणी कर सकता है? क्या यह उम्मीद के रूप में व्यवहार कर रहा है? यदि हां, तो क्यों? इस विषय पर आगे पढ़ने के लिए किसी भी विचार या संदर्भ की सराहना की जाएगी!

मैं एक जोड़े को महत्वपूर्ण कैविएट्स के साथ आप छोड़ देंगे:

1) वहाँ वितरण के किनारों में शून्य की गिनती के साथ कई डेटा बिंदु हैं। यह "नगेट" के लिए आंशिक अनिश्चितता में एक कंक फेंकता है क्योंकि (वर्ग (0)/0) ** 2 बहुत खुश मूल्य नहीं है। मैंने इन बिंदुओं के लिए केवल nugget मान को सेट करने के लिए समायोजन किया है, जो कि आपके द्वारा प्राप्त होने वाले मूल्य से मेल खाता है। मुझे लगता है कि यह एक आम अनुमान है जो हाथ पर सवाल को प्रभावित करता है, लेकिन मैं नहीं करता यह नहीं लगता कि यह मूल रूप से इस मुद्दे को बदलता है।

2) जिस डेटा के साथ मैं काम कर रहा हूं वह वास्तव में एक 2 डी हिस्टोग्राम है (यानी, एक स्वतंत्र चर (चलो एक्स कहें), दूसरा (वाई) और निर्भर चर (जेड) के रूप में गिना जाता है)। दिखाया गया साजिश 2 डी डेटा और भविष्यवाणी का एक 1 डी टुकड़ा है (यानी जेड बनाम एक्स वाई की एक छोटी सी सीमा पर एकीकृत)। मुझे नहीं लगता कि यह वास्तव में हाथ पर सवाल को प्रभावित करता है लेकिन मैंने सोचा कि मैं इसका उल्लेख करूंगा।

उत्तर

0

आपकी प्रस्तुति से, मुझे संदेह है कि व्यवहार सही है, हालांकि मैंने गणित के माध्यम से कदम नहीं उठाया है। मेरी वृत्ति मुझे बता रही है: एक समान हिस्टोग्राम मत करो। जब आप वितरण केंद्र से दूर हो जाते हैं तो बिन आकार को बड़ा बनाएं। इससे आपके मूल्य बढ़ जाएंगे और आपकी आंशिक त्रुटियां कम हो जाएंगी।

संबंधित मुद्दे