वर्गीकरण एल्गोरिदम के प्रदर्शन को मापना

मुझे अपने हाथ में एक वर्गीकरण समस्या मिली है, जिसे मैं मशीन लर्निंग एल्गोरिदम (बेयस, या मार्कोवियन के साथ संबोधित करना चाहता हूं, प्रश्न क्लासिफायर पर उपयोग करने के लिए स्वतंत्र है) । कई प्रशिक्षण उदाहरणों को देखते हुए, मैं डेटा को ओवरफिट करने की समस्या को ध्यान में रखते हुए, एक लागू वर्गीकृत के प्रदर्शन को मापने का एक तरीका ढूंढ रहा हूं।वर्गीकरण एल्गोरिदम के प्रदर्शन को मापना

यह है: एन [1..100] प्रशिक्षण नमूने दिए गए हैं, यदि मैं नमूने में से प्रत्येक पर प्रशिक्षण एल्गोरिदम चलाता हूं, और फिटनेस को मापने के लिए इस बहुत ही नमूनों का उपयोग करता हूं, तो यह डेटा ओवरफिटिंग समस्या में फंस सकता है - क्लासिफायर को प्रशिक्षण के उदाहरणों के सटीक उत्तरों के बारे में पता चल जाएगा, बिना भविष्यवाणी की शक्ति के, फिटनेस परिणामों को बेकार प्रदान करना।

एक स्पष्ट समाधान प्रशिक्षण में हाथ से टैग किए गए नमूने अलग कर देगा, और परीक्षण नमूने; और मैं प्रशिक्षण के लिए सांख्यिकीय रूप से महत्वपूर्ण नमूने चुनने के तरीकों के बारे में जानना चाहता हूं।

व्हाइट पेपर, पुस्तक पॉइंटर्स और पीडीएफ की बहुत सराहना की!

स्रोत

2009-01-02 Silver Dragon

आप इसके लिए 10-fold Cross-validation का उपयोग कर सकते हैं। मेरा मानना है कि वर्गीकरण एल्गोरिदम प्रदर्शन मूल्यांकन के लिए यह एक मानक मानक दृष्टिकोण है।

मूलभूत विचार अपने सीखने के नमूने को 10 सबसेट में विभाजित करना है। फिर ट्रेन डेटा के लिए परीक्षण डेटा और दूसरों के लिए एक सबसेट का उपयोग करें। प्रत्येक सबसेट के लिए इसे दोहराएं और अंत में औसत प्रदर्शन की गणना करें।

स्रोत

2009-01-02 11:29:41 Rockcoder

http://en.wikipedia.org/wiki/Root-mean-square_error_of_cross-validation#K-fold_cross- अवैधता (आपके द्वारा लिंक किए गए विकी आलेख के भीतर सीधे के-गुना क्रॉस सत्यापन के लिए लिंक) – JoeCool

श्री ब्राउनस्टोन ने कहा कि 10 गुना क्रॉस-वैलिडेशन शायद जाने का सबसे अच्छा तरीका है। मैंने हाल ही में Weka का उपयोग करने के लिए कई अलग-अलग वर्गीकरणों के प्रदर्शन का मूल्यांकन करना पड़ा। जिसमें एक एपीआई और उपकरण का एक भार है जो आपको विभिन्न क्लासिफायरों के प्रदर्शन की आसानी से परीक्षण करने की अनुमति देता है।

स्रोत

2009-01-02 11:44:11

वर्गीकरण एल्गोरिदम के प्रदर्शन को मापना

उत्तर

संबंधित मुद्दे