मुझे अपने हाथ में एक वर्गीकरण समस्या मिली है, जिसे मैं मशीन लर्निंग एल्गोरिदम (बेयस, या मार्कोवियन के साथ संबोधित करना चाहता हूं, प्रश्न क्लासिफायर पर उपयोग करने के लिए स्वतंत्र है) । कई प्रशिक्षण उदाहरणों को देखते हुए, मैं डेटा को ओवरफिट करने की समस्या को ध्यान में रखते हुए, एक लागू वर्गीकृत के प्रदर्शन को मापने का एक तरीका ढूंढ रहा हूं।वर्गीकरण एल्गोरिदम के प्रदर्शन को मापना
यह है: एन [1..100] प्रशिक्षण नमूने दिए गए हैं, यदि मैं नमूने में से प्रत्येक पर प्रशिक्षण एल्गोरिदम चलाता हूं, और फिटनेस को मापने के लिए इस बहुत ही नमूनों का उपयोग करता हूं, तो यह डेटा ओवरफिटिंग समस्या में फंस सकता है - क्लासिफायर को प्रशिक्षण के उदाहरणों के सटीक उत्तरों के बारे में पता चल जाएगा, बिना भविष्यवाणी की शक्ति के, फिटनेस परिणामों को बेकार प्रदान करना।
एक स्पष्ट समाधान प्रशिक्षण में हाथ से टैग किए गए नमूने अलग कर देगा, और परीक्षण नमूने; और मैं प्रशिक्षण के लिए सांख्यिकीय रूप से महत्वपूर्ण नमूने चुनने के तरीकों के बारे में जानना चाहता हूं।
व्हाइट पेपर, पुस्तक पॉइंटर्स और पीडीएफ की बहुत सराहना की!
http://en.wikipedia.org/wiki/Root-mean-square_error_of_cross-validation#K-fold_cross- अवैधता (आपके द्वारा लिंक किए गए विकी आलेख के भीतर सीधे के-गुना क्रॉस सत्यापन के लिए लिंक) – JoeCool