2012-11-13 16 views
6

Hadoop काम काउंटरों में, के बीच का अंतर बनाम "उत्पादन बाइट्स के नक्शे" "मानचित्र उत्पादन materialized बाइट्स" क्या है? जब मैं नक्शा उत्पादन संपीड़न को अक्षम मैं पूर्व देख नहीं तो मुझे लगता है कि यह असली उत्पादन बाइट (संकुचित) है, जबकि दूसरा असम्पीडित बाइट्स है?"मानचित्र उत्पादन materialized बाइट्स" बनाम "उत्पादन बाइट्स के नक्शे"

उत्तर

10

मुझे लगता है कि आप सही कर रहे हैं। http://hadoop.apache.org/docs/r1.0.4/releasenotes.html से:

MAPREDUCE-2365। FileInputFormat (BYTES_READ) और FileOutputFormat (BYTES_WRITTEN) के लिए नए काउंटर। संपीड़ित MapOutputSize के लिए नया काउंटर MAP_OUTPUT_MATERIALIZED_BYTES। (सिद्धार्थ सेठ)

(परिवर्तन Hadoop 0.20.2 के बाद से)

.............................. .................................................. ..................................................

: .................

यहाँ टॉम व्हाइट "Hadoop निश्चित गाइड" से एक उद्धरण, 3 संस्करण (तालिका 8-2, पेज 261) है "मानचित्र आउटपुट भौतिक बाइट्स" - डिस्क आउटपुट के बाइट्स की संख्या वास्तव में डिस्क पर लिखी गई है। यदि मानचित्र आउटपुट संपीड़न सक्षम है, तो यह काउंटर वैल्यू में दिखाई देता है।

"मानचित्र उत्पादन बाइट्स" - असम्पीडित उत्पादन काम में सभी नक्शे द्वारा उत्पादित की बाइट की संख्या। हर बार collect() विधि मानचित्र के OutputCollector पर कहा जाता है बढ़ी हुईं।

+0

मैं देखना मेरा काम विवरण पृष्ठ में "मानचित्र उत्पादन materialized बाइट्स" नहीं है। मैं हडोप 2.0.0-mr1-cdh4.2.1 का उपयोग कर रहा हूं। क्या मुझे कुछ सेटिंग बदलना है। –

संबंधित मुद्दे