2011-07-05 14 views
5

के लिए प्रशिक्षण डेटा का चयन कैसे करें मैं वर्गीकरण सीखने के लिए प्रशिक्षण सेट के बारे में कुछ अवधारणाओं को अनदेखा करना चाहता हूं। जब हम अपने प्रशिक्षण डेटा के लिए रिकॉर्ड चुनते हैं, तो क्या हम प्रति वर्ग के बराबर संख्या का चयन करते हैं, एन को संक्षेप में या क्या यह यादृच्छिक रूप से रिकॉर्ड्स की संख्या (कक्षा के बावजूद) चुनना चाहिए?बेवकूफ बेयस वर्गीकृत

सहजता से मैं पूर्व के बारे में सोच रहा था लेकिन पूर्व वर्ग की संभावनाओं के बारे में सोचा तो बराबर होगा और वास्तव में सहायक नहीं होगा?

उत्तर

1

पसंदीदा दृष्टिकोण सीखने और परीक्षण डेटा लेने के लिए के-फोल्ड क्रॉस सत्यापन का उपयोग करना है।

विकिपीडिया से

उद्धरण:

कश्मीर गुना पार सत्यापन

कश्मीर गुना पार सत्यापन में, मूल नमूना बेतरतीब ढंग से कश्मीर subsamples में विभाजित है। के उपसमूहों में से एक एकल सबम्प्ल्यू के लिए सत्यापन डेटा के रूप में बनाए रखा गया है, और शेष के - 1 सबमल्स का उपयोग डेटा के रूप में किया जाता है। क्रॉस-सत्यापन प्रक्रिया है, फिर के बार बार (फ़ोल्ड), दोहराया गया है, जिसमें से प्रत्येक के सबसमल्स का उपयोग सत्यापन डेटा के ठीक उसी समय किया जाता है। के परिणाम के बाद से औसत (या अन्यथा संयुक्त) एक अनुमान का उत्पादन कर सकते हैं। बार-बार यादृच्छिक सब-नमूनाकरण पर इस विधि का लाभ यह है कि सभी टिप्पणियां प्रशिक्षण और सत्यापन दोनों के लिए उपयोग की जाती हैं, और प्रत्येक अवलोकन का उपयोग सत्यापन के लिए बिल्कुल किया जाता है। 10 गुना क्रॉस-सत्यापन आमतौर पर उपयोग किया जाता है।

स्तरीकृत कश्मीर गुना पार सत्यापन में, परतों का चयन किया जाता है, ताकि प्रतिक्रिया मूल्य मतलब लगभग सभी परतों में बराबर है। के मामले में एक डिकोटॉमस वर्गीकरण, यह का अर्थ है कि प्रत्येक गुना में लगभग वर्ग लेबल के दो प्रकार के समान अनुपात होते हैं।

आपको अन्य वैज्ञानिक डेटा के साथ तुलनात्मक परिणाम प्राप्त करने के लिए हमेशा सामान्य दृष्टिकोण लेना चाहिए।

7

यह आपके वर्गों के वितरण पर निर्भर करता है और दृढ़ संकल्प केवल समस्या के डोमेन ज्ञान के साथ ही किया जा सकता है। आप निम्न सवाल पूछ सकते हैं:

  • वहाँ किसी भी दो वर्गों है कि बहुत समान हैं और शिक्षार्थी उन दोनों के बीच भेद करने के लिए पर्याप्त जानकारी है कर रहे हैं?
  • क्या प्रत्येक वर्ग की पूर्व संभावनाओं में कोई बड़ा अंतर है?

यदि ऐसा है, तो आपको शायद कक्षाओं को फिर से वितरित करना चाहिए।

मेरे अनुभव में, कक्षाओं को पुनर्वितरण में कोई हानि नहीं है, लेकिन यह हमेशा आवश्यक नहीं है।

यह वास्तव में आपके वर्गों के वितरण पर निर्भर करता है। धोखाधड़ी या घुसपैठ का पता लगाने के मामले में, पूर्वानुमान वर्ग का वितरण 1% से कम हो सकता है। यदि आप क्लासफायर प्रत्येक वर्ग के बीच मतभेद सीखना चाहते हैं तो इस मामले में आपको प्रशिक्षण सेट में समान रूप से कक्षाएं वितरित करनी होंगी। अन्यथा, यह एक वर्गीकरण का उत्पादन करेगा जो धोखाधड़ी के मामले को सही ढंग से पहचानने के बिना 99% मामलों में सही ढंग से वर्गीकृत करता है, जो शुरू करने के लिए वर्गीकरण बनाने का पूरा बिंदु है।

एक बार आपके पास समान रूप से वितरित कक्षाओं का एक सेट हो जाने के बाद आप वास्तविक प्रशिक्षण करने के लिए किसी भी तकनीक का उपयोग कर सकते हैं, जैसे कि के-फोल्ड।

एक और उदाहरण जहां वर्ग वितरण को समायोजित करने की आवश्यकता है, लेकिन प्रत्येक के लिए समान संख्या में रिकॉर्ड में जरूरी नहीं है, उनके आकार से वर्णमाला के ऊपरी-केस अक्षरों को निर्धारित करने का मामला है।

आप आमतौर पर अंग्रेजी भाषा में प्रयोग किया जाता वर्गीकारक प्रशिक्षित करने के लिए पत्र का वितरण करते हैं, तो वहाँ पत्र Q की लगभग कोई मामलों, यदि कोई हो जाएगा। दूसरी तरफ, पत्र O बहुत आम है। यदि आप कक्षाओं को Q और O के समान संख्या की अनुमति देने के लिए पुनर्वितरण नहीं करते हैं, तो क्लासिफायर के पास Q को कभी भी अंतर करने के लिए पर्याप्त जानकारी नहीं है। आपको इसे पर्याप्त जानकारी (यानी Q एस) को खिलाने की आवश्यकता है, इसलिए यह निर्धारित कर सकता है कि Q और O वास्तव में अलग-अलग अक्षर हैं।

+0

मैं @ fyr द्वारा प्रदान किए गए के-फोल्ड के बारे में पढ़ता हूं। मैं उलझन में हूं। मेरे पास प्रति वर्ग समान रूप से वितरित प्रशिक्षण सेट होने के बाद, मैं क्लासिकफायर को वास्तविक वर्गीकृत उपयोग के लिए प्रशिक्षित करने के लिए कौन से सेट प्रदान करता हूं? मेरा पहले मैं विश्वास करता हूं: सी 1: 9 0% और सी 2: 10% की तरह। – goh

+1

आप समान रूप से वितरित कक्षाओं के साथ एक नया नया डेटा सेट बनाते हैं। फिर आप इस नए डेटा का उपयोग करते हैं और इसे प्रशिक्षण, क्रॉस-वैल और आवश्यकतानुसार परीक्षण में विभाजित करते हैं। के-फोल्ड डेटा को प्रशिक्षण और क्रॉस-वैल में विभाजित करने का एक बहुत ही आम तरीका है। –

1

मैंने उदाहरण के लिए शब्दों की घटना की जांच करके एनएसएफडब्ल्यू (काम के लिए सुरक्षित नहीं) निर्धारित करने के लिए एक बेयसियन वर्गीकरण का कार्यान्वयन किया है। एनएसएफडब्ल्यू पहचान के लिए वर्गीकरण को प्रशिक्षित करते समय मैंने इसे बनाने की कोशिश की है ताकि प्रशिक्षण सेट में प्रत्येक वर्ग में उदाहरणों की संख्या समान हो। यह काम नहीं करता था और साथ ही मैंने योजना बनाई थी कि कक्षाओं में से एक को अन्य वर्ग की तुलना में प्रति उदाहरण कई और शब्द होंगे।

चूंकि मैं इन शब्दों के आधार पर एनएसएफडब्लू की संभावना की गणना कर रहा था, मैंने पाया कि कक्षाओं को उनके वास्तविक आकार (एमबी में) के आधार पर संतुलित करना काम करता है। मैंने दोनों दृष्टिकोणों के लिए 10-क्रॉस फोल्ड सत्यापन की कोशिश की (उदाहरणों और वर्गों के आकार की संख्या से संतुलित) और पाया कि डेटा के आकार से संतुलन अच्छी तरह से काम करता है।

संबंधित मुद्दे