कैसे मैं एक फ़ाइल के माध्यम से pd.read_csv() के लिए iteratively हिस्सा उपयोग कर सकते हैं और के रूप में अगर मैं एक ही बार में पूरे डाटासेट में पढ़ा dtype और अन्य मेटा जानकारी को बनाए रखने?अनुमानित dataframe प्रकार जाओ iteratively chunksize का उपयोग कर
मुझे डेटासेट में फिट करने के लिए बहुत बड़ा डेटासेट में पढ़ने की आवश्यकता है। मैं pd.read_csv का उपयोग कर फ़ाइल आयात करना चाहता हूं और फिर तुरंत एचडीएफस्टोर में खंड को जोड़ना चाहता हूं। हालांकि, डेटा प्रकार अनुमान को बाद के हिस्सों के बारे में कुछ नहीं पता है।
यदि तालिका में संग्रहीत पहला खंड केवल int है और उसके बाद के हिस्से में एक फ्लोट होता है, तो एक अपवाद उठाया जाएगा। तो मुझे read_csv का उपयोग करके डेटाफ्रेम के माध्यम से पहले पुन: प्रयास करना होगा और उच्चतम अनुमानित प्रकार को बनाए रखना होगा। इसके अलावा, ऑब्जेक्ट प्रकारों के लिए, मुझे अधिकतम लंबाई बनाए रखने की आवश्यकता है क्योंकि इन्हें तालिका में स्ट्रिंग के रूप में संग्रहीत किया जाएगा।
क्या संपूर्ण डेटासेट में पढ़े बिना केवल इस जानकारी को बनाए रखने का एक शानदार तरीका है?
आप भी skiprows इस्तेमाल कर सकते हैं पंक्तियों को छोड़ की एक सूची =, और यह 1-9 इसलिए उर नमूने में प्रत्येक पंक्ति को छोड़ दिया है केवल 10 वीं पंक्तियां, बहुत तेज होंगी (और आपको जो जवाब चाहिए वह प्राप्त होगा), मुझे लगता है कि आपको अपनी छोड़ी गई पंक्तियों को स्वयं उत्पन्न करने की आवश्यकता होगी – Jeff
@ जेफ आप सीएसवी में पंक्तियों की कुल संख्या जानने के बिना कैसे प्राप्त करेंगे, जो – Luke
में इसे पढ़ने में शामिल होगा, आपको सभी ड्यूटीप्स को स्टोर करने और अंत में कम करने के बजाय, प्रत्येक खंड पुनरावृत्ति के बाद अधिकतम डाइटप्स चुनने पर भी विचार करना चाहिए। उदाहरण के लिए, 2 एमएम पंक्तियों के साथ एक सीएसवी, और 500 का एक हिस्सा आकार, फ्रेम में 400,000 पंक्तियों का परिणाम होगा! – jastr