8

मुझे अपने हाथ में एक वर्गीकरण समस्या मिली है, जिसे मैं मशीन लर्निंग एल्गोरिदम (बेयस, या मार्कोवियन के साथ संबोधित करना चाहता हूं, प्रश्न क्लासिफायर पर उपयोग करने के लिए स्वतंत्र है) । कई प्रशिक्षण उदाहरणों को देखते हुए, मैं डेटा को ओवरफिट करने की समस्या को ध्यान में रखते हुए, एक लागू वर्गीकृत के प्रदर्शन को मापने का एक तरीका ढूंढ रहा हूं।वर्गीकरण एल्गोरिदम के प्रदर्शन को मापना

यह है: एन [1..100] प्रशिक्षण नमूने दिए गए हैं, यदि मैं नमूने में से प्रत्येक पर प्रशिक्षण एल्गोरिदम चलाता हूं, और फिटनेस को मापने के लिए इस बहुत ही नमूनों का उपयोग करता हूं, तो यह डेटा ओवरफिटिंग समस्या में फंस सकता है - क्लासिफायर को प्रशिक्षण के उदाहरणों के सटीक उत्तरों के बारे में पता चल जाएगा, बिना भविष्यवाणी की शक्ति के, फिटनेस परिणामों को बेकार प्रदान करना।

एक स्पष्ट समाधान प्रशिक्षण में हाथ से टैग किए गए नमूने अलग कर देगा, और परीक्षण नमूने; और मैं प्रशिक्षण के लिए सांख्यिकीय रूप से महत्वपूर्ण नमूने चुनने के तरीकों के बारे में जानना चाहता हूं।

व्हाइट पेपर, पुस्तक पॉइंटर्स और पीडीएफ की बहुत सराहना की!

उत्तर

14

आप इसके लिए 10-fold Cross-validation का उपयोग कर सकते हैं। मेरा मानना ​​है कि वर्गीकरण एल्गोरिदम प्रदर्शन मूल्यांकन के लिए यह एक मानक मानक दृष्टिकोण है।

मूलभूत विचार अपने सीखने के नमूने को 10 सबसेट में विभाजित करना है। फिर ट्रेन डेटा के लिए परीक्षण डेटा और दूसरों के लिए एक सबसेट का उपयोग करें। प्रत्येक सबसेट के लिए इसे दोहराएं और अंत में औसत प्रदर्शन की गणना करें।

+3

http://en.wikipedia.org/wiki/Root-mean-square_error_of_cross-validation#K-fold_cross- अवैधता (आपके द्वारा लिंक किए गए विकी आलेख के भीतर सीधे के-गुना क्रॉस सत्यापन के लिए लिंक) – JoeCool

2

श्री ब्राउनस्टोन ने कहा कि 10 गुना क्रॉस-वैलिडेशन शायद जाने का सबसे अच्छा तरीका है। मैंने हाल ही में Weka का उपयोग करने के लिए कई अलग-अलग वर्गीकरणों के प्रदर्शन का मूल्यांकन करना पड़ा। जिसमें एक एपीआई और उपकरण का एक भार है जो आपको विभिन्न क्लासिफायरों के प्रदर्शन की आसानी से परीक्षण करने की अनुमति देता है।

संबंधित मुद्दे