2009-04-10 14 views
42

मैं आर में वर्गीकरण के लिए यादृच्छिक जंगलों पैकेज का उपयोग करने के लिए कोशिश कर रहा हूँआर रैंडम वन चर महत्व

चर महत्व सूचीबद्ध उपाय कर रहे हैं:

  • वर्ग 0
  • के लिए चर x के कच्चे महत्व स्कोर मतलब वर्ग 1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini
  • के लिए चर x का
  • मतलब कच्चे महत्व स्कोर

अब मुझे पता है कि इन "मतलब" के रूप में मैं उनकी परिभाषाओं को जानता हूं। मैं क्या जानना चाहता हूं कि उनका उपयोग कैसे करें।

क्या मैं सच में जानना चाहता हूँ कि क्या इन मूल्यों आदि कितने सही वे कर रहे हैं की केवल संदर्भ, क्या एक अच्छा मूल्य है, क्या एक बुरा मान है, क्या अधिकतम और न्यूनतम कर रहे हैं,

में मतलब है यदि एक चर के उच्च MeanDecreaseAccuracy या MeanDecreaseGini है तो इसका मतलब यह महत्वपूर्ण या महत्वहीन है? कच्चे स्कोर पर भी कोई जानकारी भी उपयोगी हो सकती है। मैं उन सभी संख्याओं के बारे में जानना चाहता हूं जो उनके आवेदन के लिए प्रासंगिक हैं।

एक स्पष्टीकरण जो 'त्रुटि', 'संक्षेप', या 'क्रमबद्ध' शब्दों का उपयोग करता है, एक सरल स्पष्टीकरण होगा जिसमें यादृच्छिक वन कैसे काम करता है इस बारे में कोई चर्चा शामिल नहीं है।

जैसा कि मैं चाहता था कि कोई मुझे रेडियो का उपयोग करने के बारे में समझाए, तो मुझे यह समझने की उम्मीद नहीं होगी कि एक रेडियो रेडियो तरंगों को कैसे ध्वनि में परिवर्तित करता है।

उत्तर

24

एक व्याख्या शब्द 'त्रुटि', 'योग', या 'permutated' का उपयोग करता है तो एक सरल व्याख्या यह है कि कैसे यादृच्छिक जंगलों से काम करता है में से किसी चर्चा शामिल नहीं किया कम उपयोगी होगा।

जैसा कि मैं चाहता था कि कोई मुझे रेडियो का उपयोग करने के लिए मुझे समझाए, तो मैं नहीं समझूंगा कि रेडियो रेडियो तरंगों को कैसे ध्वनि में परिवर्तित करता है।

आप कैसे की व्याख्या करता है क्या WKRP 100.5 एफएम में संख्या लहर आवृत्तियों की परेशान तकनीकी जानकारी में जाने के बिना "का मतलब"? यादृच्छिक वनों के साथ स्पष्ट रूप से पैरामीटर और संबंधित प्रदर्शन समस्याएं कुछ तकनीकी शर्तों को समझने के बावजूद आपके सिर को पाने में मुश्किल होती हैं।

यहाँ कुछ जवाब में मेरी शॉट है: वर्ग 0

-mean कच्चे महत्व वर्ग 1

के लिए चर x के स्कोर के लिए चर x का

-mean कच्चे महत्व स्कोर को सरल बनाना रैंडम वन web page से, कच्चे महत्व स्कोर मापते हैं कि यादृच्छिक एक विशेष पूर्वानुमानकर्ता चर से डेटा कितनी उपयोगी है डेटा सफलतापूर्वक वर्गीकृत करने में है।

-MeanDecreaseAccuracy

मुझे लगता है कि यह केवल R module में है, और मेरा मानना ​​है कि यह आकलन करती मॉडल में इस भविष्यवक्ता की बहुत शामिल किए जाने के वर्गीकरण त्रुटि कम कर देता है।

-MeanDecreaseGini

Gini "असमानता" जब आय का एक समाज के वितरण, या "नोड अशुद्धता" वृक्ष-आधारित वर्गीकरण में का एक उपाय का वर्णन करने में प्रयोग किया जाता है के रूप में परिभाषित किया गया है। कम गिनी (यानी गिनी में उच्च descrease) का मतलब है कि एक विशेष predictor चर परिभाषित कक्षाओं में डेटा विभाजन में एक बड़ी भूमिका निभाता है। इस तथ्य के बारे में बात किए बिना वर्णन करना मुश्किल है कि वर्गीकरण पेड़ों में डेटा भविष्यवाणियों के मूल्यों के आधार पर अलग-अलग नोड्स पर विभाजित होते हैं। मैं इस बात पर इतना स्पष्ट नहीं हूं कि यह बेहतर प्रदर्शन में कैसे अनुवाद करता है।

+2

कृपया, गिनी परिभाषा का लिंक शामिल करें जो वास्तव में नोड विभाजन के लिए उपयोग किया जाता है: http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity – tashuhka

20

आपकी तत्काल चिंता के लिए: उच्च मानों का अर्थ है कि चर अधिक महत्वपूर्ण हैं। आपके द्वारा उल्लेख किए गए सभी उपायों के लिए यह सच होना चाहिए।

यादृच्छिक जंगल आपको बहुत जटिल मॉडल देते हैं, इसलिए महत्व उपायों की व्याख्या करना मुश्किल हो सकता है। यदि आप आसानी से समझना चाहते हैं कि आपके चर क्या कर रहे हैं, तो आरएफ का उपयोग न करें। बजाय रैखिक मॉडल या एक (गैर-ensemble) निर्णय पेड़ का प्रयोग करें।

तुमने कहा था:

एक व्याख्या शब्दों 'त्रुटि', 'योग', या 'permutated' कम मददगार होगा का उपयोग करता है तो एक सरल व्याख्या यह है कि किसी भी चर्चा शामिल नहीं किया कैसे यादृच्छिक वन काम करता है।

उपरोक्त से कहीं अधिक व्याख्या करने के लिए यह बहुत कठिन होगा, जब तक कि आप खोदने और यादृच्छिक जंगलों के बारे में क्या नहीं सीखते। मुझे लगता है कि आप या तो मैनुअल, या Breiman मैनुअल से खंड के बारे में शिकायत कर रहे हैं:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

पता लगाने के लिए कितना महत्वपूर्ण है एक चर रहा है, वे (यह "दूसरे स्थान पर रखना") यादृच्छिक कबाड़ के साथ इसे भरने, तो देखें कि अनुमानित सटीकता कितनी कम हो जाती है। MeanDecreaseAccuracy और MeanDecreaseGini इस तरह से काम करते हैं। मुझे यकीन नहीं है कि कच्चे महत्व के स्कोर क्या हैं।

5

व्याख्यात्मकता रैंडम वनों के साथ थोड़ी मुश्किल है। जबकि आरएफ एक बेहद मजबूत वर्गीकृत है, यह अपनी भविष्यवाणियों को लोकतांत्रिक रूप से बनाता है। इसके द्वारा मेरा मतलब है कि आप अपने चर के यादृच्छिक सबसेट और अपने डेटा का यादृच्छिक सबसेट लेकर एक पेड़ बनाकर सैकड़ों या हजारों पेड़ों का निर्माण करते हैं। फिर सभी गैर-चयनित डेटा के लिए भविष्यवाणी करें और भविष्यवाणी को बचाएं। यह मजबूत है क्योंकि यह आपके डेटा सेट की अनियमितताओं के साथ अच्छी तरह से व्यवहार करता है, (यानी यह यादृच्छिक रूप से उच्च/निम्न मूल्यों, सौभाग्यपूर्ण भूखंड/नमूने, एक ही चीज़ को मापने के लिए 4 अलग-अलग तरीकों, आदि) को सुचारू बनाता है। हालांकि यदि आपके पास कुछ अत्यधिक सहसंबंधित चर हैं, तो दोनों महत्वपूर्ण लग सकते हैं क्योंकि वे हमेशा प्रत्येक मॉडल में शामिल नहीं होते हैं।

यादृच्छिक जंगलों के साथ एक संभावित दृष्टिकोण आपके भविष्यवाणियों को कम करने में मदद करने के लिए हो सकता है, फिर नियमित कार्ट पर स्विच करें या अनुमान आधारित पेड़ मॉडल के लिए पार्टी पैकेज को आजमाएं। हालांकि तब आपको डेटा खनन मुद्दों, और पैरामीटर के बारे में संदर्भ बनाने के बारे में सावधान रहना चाहिए।

संबंधित मुद्दे