मेरे पास बड़ी मात्रा में डेटा (कुछ टेराबाइट्स) हैं और जमा हो रहे हैं ... वे कई टैब-सीमांकित फ्लैट टेक्स्ट फ़ाइलों (प्रत्येक के बारे में 30 एमबी) में निहित हैं। अधिकांश कार्य में अनुमानित विवरणों की श्रृंखला के आधार पर अवलोकन/पंक्तियों पर डेटा और एकत्रण (संक्षेप/औसत + अतिरिक्त परिवर्तन) को पढ़ने और फिर आउटपुट को टेक्स्ट, एचडीएफ 5, या SQLite फ़ाइलों आदि के रूप में सहेजना शामिल है। मैं आम तौर पर आर का उपयोग करता हूं ऐसे कार्यों के लिए लेकिन मुझे डर है कि यह थोड़ा बड़ा हो सकता है। कुछ लोग इसमें समाधान करने के लिएकई टेक्स्ट फ़ाइलों में बड़ी मात्रा में डेटा - प्रक्रिया कैसे करें?
- सी (या फोरट्रान) में पूरी बात लिखने हैं
- एक रिलेशनल डेटाबेस सीधे में फ़ाइलें (टेबल्स) आयात और तो आर या अजगर में हिस्सा (कुछ हटा परिवर्तनों के नहीं शुद्ध एसक्यूएल समाधान के लिए उत्तरदायी होते हैं)
- अजगर में पूरी बात
चाहेंगे (3) एक बुरा विचार हो बारे में? मुझे पता है कि आप पाइथन में सी रूटीन को लपेट सकते हैं लेकिन इस मामले में कम्प्यूटेशनल रूप से निषिद्ध कुछ भी नहीं है (उदाहरण के लिए, ऑप्टिमाइज़ेशन रूटीन जो कई पुनरावृत्तियों की गणना की आवश्यकता होती है), मुझे लगता है कि I/O गणना के रूप में उतनी ही बाधा हो सकती है। क्या आपके पास आगे विचारों या सुझावों पर कोई सिफारिश है? धन्यवाद
संपादित करें अपने प्रतिक्रियाओं के लिए धन्यवाद। हडोप के बारे में विवादित राय प्रतीत होती है, लेकिन किसी भी मामले में मेरे पास क्लस्टर तक पहुंच नहीं है (हालांकि मैं कई अनवरोधित मशीनों का उपयोग कर सकता हूं) ...
महान प्रश्न, यह जैविक अनुक्रम डेटा के साथ एक ही समस्या की तरह लगता है। – Stedy