मेरे पास नक्शा-कम जावा प्रोग्राम है जिसमें मैं केवल मैपर आउटपुट को संपीड़ित करने की कोशिश करता हूं लेकिन रेड्यूसर आउटपुट नहीं। मैंने सोचा कि नीचे सूचीबद्ध अनुसार कॉन्फ़िगरेशन इंस्टेंस में निम्न गुणों को सेट करना संभव होगा। हालांकि, जब मैं अपना काम चलाता हूं, तो रेड्यूसर द्वारा उत्पन्न आउटपुट अभी भी संपीड़ित होता है क्योंकि उत्पन्न फ़ाइल है: part-r-00000.gz। क्या किसी ने सफलतापूर्वक मैपर डेटा को संपीड़ित किया है लेकिन reducer नहीं? क्या यह भी संभव है?हाडोप, मैपर आउटपुट को कैसे कंप्रेस करें, लेकिन रेड्यूसर आउटपुट
// कम्प्रेस नक्शाकार उत्पादन
conf.setBoolean("mapred.output.compress", true);
conf.set("mapred.output.compression.type", CompressionType.BLOCK.toString());
conf.setClass("mapred.output.compression.codec", GzipCodec.class, CompressionCodec.class);
पर लाए जाते हैं यदि किसी को दिलचस्पी है कि यह एवरो के लिए कैसे काम करता है, क्योंकि एवरो केवल स्नैपी और डिफ्लेट का समर्थन करता है, तो यह कॉन्फ़िगरेशन सबसे अच्छा है। अंतिम कम फ़ाइल नाम नहीं बदले जाएंगे, हालांकि आप देखेंगे कि आंतरिक ब्लॉक स्तर पर संपीड़न के कारण फ़ाइल आकार बदलते हैं। यहां अधिक जानकारी: http://www.quora.com/Can-avro-data-files-be-lzop-compressed-in-Hadoop –
क्या आप ईएमआर में चरणों को जोड़ने के दौरान इन सेटिंग्स को सेट कर रहे हैं? –