मेरे पास big.___()
पैकेजों में से कुछ का उपयोग करके आर में काम करने वाला एक बड़ा डेटा सेट है। यह ~ 10 gigs (100mmR x 15 सी) है और इस तरह दिखता है:आर वैरिकल वैरिएबल के साथ biglm
Price Var1 Var2
12.45 1 1
33.67 1 2
25.99 3 3
14.89 2 2
23.99 1 1
... ... ...
मैं var1 और var2 के आधार पर कीमत भविष्यवाणी करने के लिए कोशिश कर रहा हूँ।
जिस समस्या के साथ मैं आया हूं वह यह है कि Var1 और Var2 स्पष्ट/कारक चर हैं।
var1 और var2 प्रत्येक 3 स्तरों (1,2 और 3), लेकिन डेटा में केवल 6 संयोजन सेट
(1,1; 1,2; 1,3; 2,2; 2,3; 3,3)
biglm()
में कारक चर का उपयोग करने के लिए वे डेटा के प्रत्येक टुकड़ा में मौजूद होना चाहिए देखते हैं कि biglm
उपयोग करता है (मेरी समझ यह है कि biglm
डेटा सेट को 'x' भाग में विभाजित करता है और रैम से बड़े डेटा सेट से निपटने के लिए प्रत्येक खंड का विश्लेषण करने के बाद प्रतिगमन मानकों को अद्यतन करता है)।
मैं डेटा सबसेट तक की कोशिश की है, लेकिन अपने कंप्यूटर इसे संभाल नहीं कर सकते हैं या मेरे कोड गलत है:
bm11 <- big.matrix(150000000, 3)
bm11 <- subset(x, x[,2] == 1 & x[,3] == 1)
ऊपर मुझे इन का एक समूह देता है:
Error: cannot allocate vector of size 1.1 Gb
करता है किसी को भी इस मुद्दे के आसपास काम करने के लिए कोई सुझाव है?
मैं विंडोज 7 मशीन डब्ल्यू/4 गीगा रैम पर आर 64-बिट का उपयोग कर रहा हूं।
क्या आप खुद को डमी बना सकते हैं और उन पर 'biglm' चला सकते हैं? –
@ gsk3: यह वही है जो मैंने महसूस किया था कि उन्हें प्रत्येक खंड में उपस्थित होने की आवश्यकता है। जब मैंने नए मानों की भविष्यवाणी करने की कोशिश की तो मैं सफलतापूर्वक biglm भाग गया तो एक त्रुटि संदेश मिला और वे सभी रिग्रेशन पैरामीटर में मौजूद नहीं थे। – screechOwl