मेरे पास एक कंप्यूटर पर एक मध्यम आकार की फ़ाइल (4 जीबी सीएसवी) है जिसमें इसे पढ़ने के लिए पर्याप्त रैम नहीं है (64-बिट विंडोज़ पर 8 जीबी)। अतीत में मैंने इसे क्लस्टर नोड पर लोड कर लिया होगा और इसे पढ़ा होगा, लेकिन मेरा नया क्लस्टर मनमाने ढंग से प्रक्रियाओं को 4 जीबी रैम तक सीमित करता है (हार्डवेयर के प्रति 16 जीबी होने के बावजूद), इसलिए मुझे अल्पावधि फिक्स चाहिए ।टुकड़ों में सीएसवी फाइलों में पढ़ने के लिए रणनीतियां?
क्या उपलब्ध स्मृति सीमाओं को फिट करने के लिए आर में एक CSV फ़ाइल के हिस्से में पढ़ने का कोई तरीका है? इस तरह से मैं एक समय में फ़ाइल के एक तिहाई में पढ़ सकता था, इसे पंक्तियों और स्तंभों की आवश्यकता है, और फिर अगले तीसरे में पढ़ा जाए?
कुछ बड़े स्मृति चाल का उपयोग कर कि मैं संभवतः पूरी फ़ाइल में पढ़ सकते हैं ओर इशारा करते हुए के लिए टिप्पणीकर्ताओं के लिए धन्यवाद: Quickly reading very large tables as dataframes in R
मैं कुछ अन्य समाधान के बारे में सोच सकते हैं (एक अच्छा पाठ संपादक में जैसे खुला, 2 बंद कलम/3 अवलोकनों के बाद, आर में लोड), लेकिन यदि संभव हो तो मैं उन्हें बचाना चाहूंगा।
तो इसे टुकड़ों में पढ़ना अभी भी अब के लिए जाने का सबसे अच्छा तरीका है।
इस पर विस्तार से चर्चा की गई है, विशेष रूप से जेडी लॉन्ग का जवाब काफी उपयोगी है: http://stackoverflow.com/questions/1727772/quickly-reading-very-large-tables-as-dataframes-in-r –
एफएफ पैकेज डेटा फ्रेम करता है – mdsumner
क्षमा करें, यह पहला सवाल जवाब देता है। स्पष्ट रूप से मेरे एसओ खोज-फू को सम्मान की जरूरत है, जैसा कि मैंने खोज की थी लेकिन इसे नहीं मिला। यह दूसरे को अनुत्तरित छोड़ देता है, हालांकि: टुकड़ों में सीएसवी फ़ाइल में कैसे पढ़ा जाए। –