मेरे पास डेटा 3-अंकों की जीबी या यहां तक कि 1 या 2-अंकों वाली टीबी की परिमाण में सेट है। इसलिए इनपुट फाइलें फाइलों की एक सूची होती हैं, प्रत्येक आकार 10 जीबी की तरह होती है। मेरा नक्शा हैडऑप प्रक्रियाओं में इन सभी फ़ाइलों को संसाधित करता है और फिर केवल एक आउटपुट फ़ाइल (समेकित जानकारी के साथ) देता है।हडोप मैपराइडस: उपयुक्त इनपुट फाइल का आकार?
मेरे प्रश्न हैं:
अपाचे से Hadoop/mapreduce फ्रेमवर्क ट्यूनिंग के लिए उपयुक्त फ़ाइल आकार क्या है? मैंने सुना है कि छोटे फ़ाइल आकार छोटे से अधिक पसंद किए जाते हैं। क्या कोई विचार है? एकमात्र चीज जिसे मैं निश्चित रूप से जानता हूं वह यह है कि हैडोप ब्लॉक को पढ़ता है, प्रत्येक डिफ़ॉल्ट रूप से 64 एमबी के साथ। तो यह अच्छा होगा अगर फ़ाइल का आकार 64 एमबी का गुणक है।
फिलहाल, मेरा एप्लिकेशन आउटपुट फ़ाइल को केवल एक फ़ाइल में लिख रहा है। फ़ाइल का आकार निश्चित रूप से 3-अंकों का गिगाबिट होता है। मैं सोच रहा हूं कि मैं फ़ाइल को कितनी कुशलता से विभाजित कर सकता हूं। बेशक मैं इस काम को करने के लिए बस कुछ यूनिक्स उपकरण का उपयोग कर सकता हूं। लेकिन क्या यह सीधे हैडूप में ऐसा करना पसंद करता है?
आपकी टिप्पणी के लिए Thx!
पीएस .: मैं फ़ाइलों को संपीड़ित नहीं कर रहा हूं। इनपुट फाइलों का फ़ाइल प्रारूप टेक्स्ट/सीएसवी है।
कई सारे प्रश्न (कृपया अपने मूल प्रश्न में उत्तर पोस्ट करें): क्या आप फ़ाइलों को संपीड़ित कर रहे हैं, यदि ऐसा है तो आप किस संपीड़न प्रकार का उपयोग कर रहे हैं (gzip, bz2, ...)? इनपुट फ़ाइलों का फ़ाइल प्रारूप क्या है (टेक्स्ट, बाइनरी?) –
@ क्रिस: मैं फ़ाइलों को संपीड़ित नहीं कर रहा हूं। इनपुट फाइलों का फ़ाइल प्रारूप टेक्स्ट/सीएसवी है। धन्यवाद! – Bob