2011-02-04 11 views
8

मैं ruby classifier gem का उपयोग कर रहा हूं जिसका वर्गीकरण विधि प्रशिक्षित मॉडल के खिलाफ वर्गीकृत दिए गए स्ट्रिंग के लिए स्कोर देता है।Bayesian क्लासिफायर स्कोर का प्रतिनिधित्व क्या करता है?

क्या स्कोर एक प्रतिशत है? यदि हां, तो अधिकतम अंतर 100 अंक है?

उत्तर

5

यह लॉगेरिथम संभावना है। एक बड़े प्रशिक्षित सेट के साथ, वास्तविक संभावनाएं बहुत छोटी संख्या होती हैं, इसलिए लॉगरिदम तुलना करना आसान होता है। सैद्धांतिक रूप से, स्कोर infinitesimally शून्य से नीचे नकारात्मक अनंत तक होगा। 10**score * 100.0 आपको वास्तविक संभावना प्रदान करेगा, जिसमें वास्तव में 100 का अधिकतम अंतर होगा।

+1

+1 मैंने 'वर्गीकरण' विधि के लिए [स्रोत] (http://classifier.rubyforge.org/classes/Classifier/Bayes.src/M000041.html) की जांच की है, और आप सही रास्ते पर हैं। –

+0

यह समझ में आता है, लेकिन मैं अभी भी वास्तविक संभावना के लिए सूत्र के साथ संघर्ष कर रहा हूं। मेरे सेट के लिए एक सामान्य स्कोर -8.84 जैसा कुछ है। तो 10 * (- 8.84) * 100 = 840. मुझे अभी भी कुछ याद आ रहा है। –

+1

ऐसा लगता है जैसे आप 10 -8.84 से गुणा हो गए हैं। आपको 10 -8.84 "वें शक्ति को ऊपर उठाना होगा। –

4

असल में एक विशिष्ट बेवकूफ बेयस क्लासिफायरफायर की संभावना की गणना करने के लिए जहां बी आधार है, यह बी^स्कोर/(1 + बी^स्कोर है)। यह उलटा लॉगिट है (http://en.wikipedia.org/wiki/Logit) हालांकि, एनबीसी की स्वतंत्रता धारणाओं को देखते हुए, ये स्कोर बहुत अधिक या बहुत कम होते हैं और गणना की गई संभावनाएं इस तरह से सीमाओं पर जमा हो जाएंगी । होल्डआउट सेट में स्कोर की गणना करना और स्कोर और संभावना के बीच संबंधों के लिए बेहतर महसूस करने के लिए स्कोर पर सटीक (1 या 0) का लॉजिस्टिक रिग्रेशन करना बेहतर होता है।

एक जेसन रेनी कागज से: 2.7 अनुभवहीन Bayes आउटपुट अक्सर Overcondent पाठ डेटाबेस अक्सर 10,000 से 1,00,000 विशिष्ट शब्दावली शब्द है, दस्तावेजों में अक्सर 100 या अधिक शब्द होते हैं। इसलिए, नकल के लिए बहुत अच्छा अवसर है। यह समझने के लिए कि कितना नकल है, हमने 20 एमएपी समूह दस्तावेजों में से 80% के साथ एक एमएपी बेव बेस मॉडल को प्रशिक्षित किया। हमने डेटा के शेष 20% पर पी (सीजेडी; डी) (पश्चवर्ती) मूल्यों का उत्पादन किया और तालिका 2.3 में maxc p (cjd; D) पर आंकड़े दिखाएं। मूल्य अत्यधिक अतिसंवेदनशील हैं। परीक्षण दस्तावेजों में से 60% को 1 दशमलव के बाद 1 दशमलव के लिए निर्दिष्ट किया जाता है। लॉजिस्टिक रिग्रेशन के विपरीत, बेवकूफ बेयस उचित संभाव्यता मूल्यों का उत्पादन करने के लिए अनुकूलित नहीं है। लॉजिस्टिक रिग्रेशन रैखिक सहकारी के संयुक्त अनुकूलन को निष्पादित करता है, जो उचित सुसंगत प्रशिक्षण डेटा के साथ संभाव्यता मानों में परिवर्तित होता है। बेवकूफ बेयस सहकारी एक-एक करके अनुकूलित करता है। यह यथार्थवादी आउटपुट उत्पन्न करता है जब स्वतंत्रता धारणा सच है। जब सुविधाओं में सिग्निकेंट डुप्लिकेट जानकारी शामिल होती है (जैसा आमतौर पर टेक्स्ट के साथ होता है), नाइव बेयस द्वारा प्रदान किए गए पोस्टरियर्स अत्यधिक अतिसंवेदनशील होते हैं।

संबंधित मुद्दे