क्यों समाप्त हो रहा है मैं 70 मिलियन पंक्तियों और 25 संख्यात्मक सुविधाओं वाले प्रशिक्षण सेट पर H2O
लाइब्रेरी का उपयोग कर यादृच्छिक वन वर्गीकरण मॉडल का प्रयास कर रहा हूं। कुल फ़ाइल का आकार 5.6 जीबी है।कनेक्शन
सत्यापन फ़ाइल का आकार 1 जीबी है।
मेरे सिस्टम पर 16 जीबी रैम और 8 कोर सीपीयू है।
सिस्टम एच 2 ओ ऑब्जेक्ट में दोनों फ़ाइलों को सफलतापूर्वक पढ़ने में सक्षम है।
तब मैं आदेश नीचे दे रहा हूँ मॉडल बनाने के लिए:
model <- h2o.randomForest(x = c(1:18,20:25), y = 19, training_frame = traindata,
validation_frame = testdata, ntrees = 150, mtries = 6)
लेकिन कुछ ही मिनटों (किसी भी पेड़ पैदा करने के बिना) के बाद, मुझे निम्न त्रुटि हो रही है:
"Error in .h2o.doSafeREST(conn = conn, h2oRestApiVersion = h2oRestApiVersion, : Unexpected CURL error: Recv failure: Connection reset by peer"
हालांकि अगर मैंने कोड के ऊपर 1 पेड़ के साथ कोशिश की, यह सफलतापूर्वक चल रहा है।
क्या स्मृति समस्या के कारण उपरोक्त त्रुटि उत्पन्न हो रही है? किसी भी तरह की सहायता को आभार समझेंगे।
मैंने वन बढ़ने के दौरान स्मृति उपयोग की जांच की है। स्मृति तेजी से नीचे चला जाता है और आखिरकार मुझे कनेक्शन त्रुटि मिलती है। मैं अन्य प्रक्रिया को मार दूंगा, और केवल आरएफ अलगो चलाऊंगा। – rks
हमें बताएं कि क्या इससे मदद मिली है। वैकल्पिक रूप से, आप कम संसाधन मांग वाले एमएल दृष्टिकोण जैसे गहरे तंत्रिका नेटवर्क की कोशिश कर सकते हैं, जो एच 2 ओ बेस संस्करण में भी मौजूद है। – cyberj0g
यह मेरी गलती थी। पहले मैं डिफ़ॉल्ट स्मृति विकल्प के साथ एच 2 ओ इंस्टेंस चला रहा था (यह मेरे डेटा के लिए बहुत कम था)। अब मैं -Xmx14g विकल्प के साथ H2O इंस्टेंस चला रहा हूं और अलगो सफलतापूर्वक चल रहा है। चीयर्स ... :)। अगर मैं अपने मामले में थ्रेसहोल्ड से कम सटीकता प्राप्त करूंगा तो मैं गहरी शिक्षा के आपके सुझाव पर विचार करूंगा। – rks