में यादृच्छिक वन/क्रॉस सत्यापन करने के लिए कैसे करें मैं एक प्रतिगमन यादृच्छिक वन मॉडल पर क्रॉस सत्यापन करने का कोई तरीका नहीं ढूंढ पा रहा हूं जिसे मैं उत्पादन करने की कोशिश कर रहा हूं।आर
तो मेरे पास एक प्रतिक्रिया चर (प्रतिधारण समय) के साथ 1664 स्पष्टीकरण चर (विभिन्न रासायनिक गुण) युक्त डेटासेट है। मैं अपने अवधारण समय के कुछ के रासायनिक गुणों की भविष्यवाणी करने में सक्षम होने के लिए एक प्रतिगमन यादृच्छिक वन मॉडल का उत्पादन करने की कोशिश कर रहा हूं।
ID RT (seconds) 1_MW 2_AMW 3_Sv 4_Se
4281 38 145.29 5.01 14.76 28.37
4952 40 132.19 6.29 11 21.28
4823 41 176.21 7.34 12.9 24.92
3840 41 174.24 6.7 13.99 26.48
3665 42 240.34 9.24 15.2 27.08
3591 42 161.23 6.2 13.71 26.27
3659 42 146.22 6.09 12.6 24.16
यह मेरे पास तालिका का एक उदाहरण है। मैं मूल रूप से 1 एमडब्लू, आदि (1664 चर तक) के खिलाफ आरटी प्लॉट करना चाहता हूं, इसलिए मुझे पता चल सकता है कि इनमें से कौन सा चर महत्वपूर्ण है और जो नहीं हैं।
मुझे क्या करना: -
r = randomForest(RT..seconds.~., data = cadets, importance =TRUE, do.trace = 100)
varImpPlot(r)
जो मुझसे कहता है जो चर महत्व के नहीं हैं और क्या है, जो बहुत अच्छा है। हालांकि, मैं अपने डेटासेट को विभाजित करने में सक्षम होना चाहता हूं ताकि मैं उस पर क्रॉस सत्यापन कर सकूं। मुझे एक ऑनलाइन ट्यूटोरियल मिला जो समझाता है कि इसे कैसे किया जाए, लेकिन प्रतिगमन के बजाय वर्गीकरण मॉडल के लिए।
मैं समझता हूँ कि तुम क्या: -
k = 10
n = floor(nrow(cadets)/k)
i = 1
s1 = ((i-1) * n+1)
s2 = (i * n)
subset = s1:s2
कितने पार परतों आप क्या करना चाहते परिभाषित करने के लिए, और प्रत्येक गुना के आकार, और उप-समूह की प्रारंभ और समाप्ति मान सेट करने के। हालांकि, मुझे नहीं पता कि बाद में क्या करना है। मुझे लूप के बारे में बताया गया था लेकिन मुझे ईमानदारी से यह नहीं पता कि यह कैसे करना है। न ही मुझे पता है कि सटीकता/त्रुटि के स्तर को दर्शाने के लिए सत्यापन सेट और परीक्षण ग्राफ़ को उसी ग्राफ़ पर कैसे प्लॉट करना है।
यदि आप कृपया मेरी मदद कर सकते हैं तो मैं हमेशा बहुत आभारी रहूंगा, धन्यवाद!
आप आर में सीवी में रुचि रखते हैं, तो अभी भी कम से कम जोड़ी है ] (http://cran.r-project.org/web/packages/cvTools/cvTools.pdf) – topchef