मेरे पास महीनों में लगभग 500GB टेक्स्ट फ़ाइल अलग है। इन पाठ फ़ाइलों में पहली 43 लाइनें सिर्फ कनेक्शन जानकारी हैं (आवश्यक नहीं)। अगली 75 लाइनें अवलोकन के लिए वर्णक हैं। इसके बाद 4 लाइनें (आवश्यक नहीं) तो अगले अवलोकन जो 75 लाइनें हैं।500 जीबी टेक्स्ट फ़ाइल आयात करने का सबसे तेज़ तरीका केवल अनुभाग लेना चाहता था
बात सब मैं चाहता हूँ इन 75 लाइनों (वर्णनकर्ता हर अवलोकन के लिए एक ही स्थान पर हैं), जो इस तरह विशेषता है कर रहे हैं:
ID: 5523
Date: 20052012
Mixed: <Null>
.
.
और मैं प्रत्येक के लिए CSV प्रारूप 5523;20052012;;..
करने के लिए इसे बदलना चाहते हैं अवलोकन। ताकि मैं बहुत छोटी टेक्स्ट फाइलों के साथ समाप्त हो जाऊं। चूंकि वर्णनकर्ता एक जैसे हैं, मुझे पता चलेगा कि उदाहरण के लिए पहली स्थिति आईडी है।
एक बार जब मैं टेक्स्ट फ़ाइल के साथ समाप्त करता हूं तो मैं अगला खोलूंगा और इसे जोड़ रहा हूं (या एक नई फाइल को तेज कर दूंगा?)।
मैंने जो किया है वह काफी अक्षम है, मैं फ़ाइल खोल रहा हूं। इसे लोड हो रहा है इन अवलोकनों को लाइन से लाइन पर जा रहा है। यदि यह एक परीक्षण नमूना के साथ एक उचित बिट ले रहा है तो यह स्पष्ट रूप से सबसे अच्छी विधि नहीं है।
कोई भी सुझाव अच्छा होगा।
से क्षेत्रों के साथ एक सूची containg आपकी फ़ाइलों के किसी भी भाग की लंबाई तय कर रहे हैं प्रत्येक प्रविष्टि के साथ info_to_keep नामक एक सूची हो सकती है? –
नोट।सीएसवी का उपयोग करता है, नहीं; –
हां, इसलिए नाम: [सीएसवी, कॉमा सेपरेटेड वैल्यूज] (http://en.wikipedia.org/wiki/Comma-separated_values) – voithos