यह आपके वर्गों के वितरण पर निर्भर करता है और दृढ़ संकल्प केवल समस्या के डोमेन ज्ञान के साथ ही किया जा सकता है। आप निम्न सवाल पूछ सकते हैं:
- वहाँ किसी भी दो वर्गों है कि बहुत समान हैं और शिक्षार्थी उन दोनों के बीच भेद करने के लिए पर्याप्त जानकारी है कर रहे हैं?
- क्या प्रत्येक वर्ग की पूर्व संभावनाओं में कोई बड़ा अंतर है?
यदि ऐसा है, तो आपको शायद कक्षाओं को फिर से वितरित करना चाहिए।
मेरे अनुभव में, कक्षाओं को पुनर्वितरण में कोई हानि नहीं है, लेकिन यह हमेशा आवश्यक नहीं है।
यह वास्तव में आपके वर्गों के वितरण पर निर्भर करता है। धोखाधड़ी या घुसपैठ का पता लगाने के मामले में, पूर्वानुमान वर्ग का वितरण 1% से कम हो सकता है। यदि आप क्लासफायर प्रत्येक वर्ग के बीच मतभेद सीखना चाहते हैं तो इस मामले में आपको प्रशिक्षण सेट में समान रूप से कक्षाएं वितरित करनी होंगी। अन्यथा, यह एक वर्गीकरण का उत्पादन करेगा जो धोखाधड़ी के मामले को सही ढंग से पहचानने के बिना 99% मामलों में सही ढंग से वर्गीकृत करता है, जो शुरू करने के लिए वर्गीकरण बनाने का पूरा बिंदु है।
एक बार आपके पास समान रूप से वितरित कक्षाओं का एक सेट हो जाने के बाद आप वास्तविक प्रशिक्षण करने के लिए किसी भी तकनीक का उपयोग कर सकते हैं, जैसे कि के-फोल्ड।
एक और उदाहरण जहां वर्ग वितरण को समायोजित करने की आवश्यकता है, लेकिन प्रत्येक के लिए समान संख्या में रिकॉर्ड में जरूरी नहीं है, उनके आकार से वर्णमाला के ऊपरी-केस अक्षरों को निर्धारित करने का मामला है।
आप आमतौर पर अंग्रेजी भाषा में प्रयोग किया जाता वर्गीकारक प्रशिक्षित करने के लिए पत्र का वितरण करते हैं, तो वहाँ पत्र Q
की लगभग कोई मामलों, यदि कोई हो जाएगा। दूसरी तरफ, पत्र O
बहुत आम है। यदि आप कक्षाओं को Q
और O
के समान संख्या की अनुमति देने के लिए पुनर्वितरण नहीं करते हैं, तो क्लासिफायर के पास Q
को कभी भी अंतर करने के लिए पर्याप्त जानकारी नहीं है। आपको इसे पर्याप्त जानकारी (यानी Q
एस) को खिलाने की आवश्यकता है, इसलिए यह निर्धारित कर सकता है कि Q
और O
वास्तव में अलग-अलग अक्षर हैं।
स्रोत
2011-07-05 17:22:29
मैं @ fyr द्वारा प्रदान किए गए के-फोल्ड के बारे में पढ़ता हूं। मैं उलझन में हूं। मेरे पास प्रति वर्ग समान रूप से वितरित प्रशिक्षण सेट होने के बाद, मैं क्लासिकफायर को वास्तविक वर्गीकृत उपयोग के लिए प्रशिक्षित करने के लिए कौन से सेट प्रदान करता हूं? मेरा पहले मैं विश्वास करता हूं: सी 1: 9 0% और सी 2: 10% की तरह। – goh
आप समान रूप से वितरित कक्षाओं के साथ एक नया नया डेटा सेट बनाते हैं। फिर आप इस नए डेटा का उपयोग करते हैं और इसे प्रशिक्षण, क्रॉस-वैल और आवश्यकतानुसार परीक्षण में विभाजित करते हैं। के-फोल्ड डेटा को प्रशिक्षण और क्रॉस-वैल में विभाजित करने का एक बहुत ही आम तरीका है। –