2013-07-09 9 views
5

प्रदर्शन करते समय अवलोकन की न्यूनतम संख्या क्या बहुत कम डेटासेट में RandomForests को लागू करना संभव है? मेरे पास कई चर के साथ एक डेटासेट है लेकिन प्रत्येक केवल 25 अवलोकन है। यादृच्छिक वन कम ओओबी त्रुटियों (10-25%) के साथ उचित परिणाम उत्पन्न करते हैं। क्या उपयोग करने के लिए न्यूनतम संख्या में अवलोकन के बारे में अंगूठे का कोई नियम है? वास्तव में प्रतिक्रिया चर में से एक असंतुलित है, और यदि मैं इसे कम करने जा रहा हूं तो मैं अवलोकनों की एक छोटी संख्या के साथ समाप्त हो जाऊंगा। अग्रिम धन्यवादरैंडम वन

+0

प्रशिक्षण सेट में कितनी सुविधाएं शामिल हैं? – jonnydedwards

+0

इसमें 33 भविष्यवाणियों और 4 प्रतिक्रिया चर शामिल हैं (मुझे 4 आरएफ करना चाहिए) – Oritteropus

+1

जांचें [यह] (http://stats.stackexchange.com/questions/10079/rules-of-thumb-for-minimum- नमूना- आकार- हेरिस्टिक्स के लिए बाहर-एकाधिक-प्रतिगमन)। – jonnydedwards

उत्तर

3

इस प्रकार के डेटासेट (यानी पी> एन) पर बिल्कुल आरएफ का उपयोग किया जा सकता है। वास्तव में वे जीनोमिक्स जैसे क्षेत्रों में आरएफ का उपयोग करते हैं जहां फ़ील्ड की संख्या> = 20000 और केवल पंक्तियों की एक बहुत छोटी संख्या है - 10-12 कहें। पूरी समस्या यह पता लग रही है कि 20k चर किस प्रकार एक पारदर्शी मार्कर बनाते हैं (यानी फीचर चयन पूरी समस्या है)।

मेरे पास न्यूनतम आकार के बारे में कोई भी आरओटी नहीं है, यदि आपका मॉडल किसी पिछड़े नमूने पर अच्छा काम नहीं करता है (या होल्ड-वन-बैक क्रॉस सत्यापन आपके मामले में अच्छी तरह से काम कर सकता है) तो आपको कोशिश करनी चाहिए कुछ और।

आशा है कि यह

संबंधित मुद्दे