मेरे पास आर (1 एम + पंक्तियों द्वारा 1 एम + पंक्तियों) में एक बड़ा डेटासेट है जिसे मैं एक यादृच्छिक वन (randomForest
पैकेज का उपयोग करके) को रिग्रेशन उद्देश्यों के लिए प्रशिक्षित करने के लिए उपयोग करना चाहता हूं। दुर्भाग्यवश, मुझे एक बार में पूरी चीज करने की कोशिश करते समय Error in matrix(0, n, n) : too many elements specified
त्रुटि मिलती है और डेटा के सबसेट पर चलने पर पर्याप्त मेमोरी त्रुटियों को आवंटित नहीं कर सकता - 10,000 या उससे अधिक अवलोकनों तक।एक बड़े डेटासेट पर यादृच्छिक वन
यह देखकर कि कोई मौका नहीं है कि मैं अपनी मशीन पर और अधिक रैम जोड़ सकता हूं और यादृच्छिक जंगल मॉडल की कोशिश करने की कोशिश कर रहे प्रक्रिया के प्रकार के लिए बहुत उपयुक्त हैं, मैं वास्तव में यह काम करना चाहता हूं।
कोई सुझाव या कामकाज विचारों की बहुत सराहना की जाती है। 1 लाख एक्स 1 लाख:
'निकटता = FALSE' के साथ [joran] के रूप में चलाएं (http://stackoverflow.com/users/324364/joran) ने सुझाव दिया और यह बताएं कि यह काम करता है या नहीं। – smci
आपकी समस्या के आस-पास एक अपेक्षाकृत सरल तरीका आपके इनपुट मैट्रिक्स को सब्सक्राइब करना होगा। वह आंकड़ा शायद आपको आकार 10K x 10K के उप-समूह के साथ एक बेहतर मॉडल नहीं देगा। –
क्या आपने लाइब्रेरी (एच 2o) पर एक नज़र डाली है? यह बहुत बड़ी समस्याओं के लिए ठीक है, देखें http://www.r-bloggers.com/benchmarking-random-forest-implementations/ –