मैं सांख्यिकीय प्रसंस्करण के लिए एक पांडस एचडीएफस्टोर में बड़ी मात्रा में http लॉग (80 जीबी +) आयात कर रहा हूं। यहां तक कि एक आयात फ़ाइल के भीतर भी मुझे सामग्री को बैच करने की आवश्यकता होती है क्यों
से डेटाफ्रेम को अनलोड करें ठीक है, मैं 30 जीबी सीएसवी फ़ाइल को 40 मिलियन + पंक्तियों और एचडीएफस्टोर में 150+ कॉलम के साथ लोड करने के लिए पांडा के साथ प्रयोग कर रहा हूं। अधिकांश कॉलम स्ट्रिंग्स हैं, इस
कैसे मैं एक फ़ाइल के माध्यम से pd.read_csv() के लिए iteratively हिस्सा उपयोग कर सकते हैं और के रूप में अगर मैं एक ही बार में पूरे डाटासेट में पढ़ा dtype और अन्य मेटा जानकारी को बनाए रखने? मुझे डेटासेट
पांडस में, क्या टेबल प्रारूप में एचडीएफस्टोर में मौजूद सभी मल्टी इंडेक्स इंडेक्स को कुशलतापूर्वक खींचने का कोई तरीका है? मैं कुशलतापूर्वक where= का उपयोग कर सकता हूं, लेकिन मुझे सभी अनुक्रमणिका और कॉल