मैं बस 0 reducer और पहचान reducer के बीच अंतर की मेरी समझ की पुष्टि करने की कोशिश कर रहा हूँ।हडूप: 0 रेड्यूसर और पहचान reducer के बीच अंतर?
- 0 कम करने का मतलब है कम कर कदम छोड़ दिया जाएगा और नक्शाकार उत्पादन अंतिम बाहर
- पहचान कम करने तो छँटाई अभी भी आयोजित होगा फेरबदल/इसका मतलब होगा?
हाय डोलन, क्या आप कम से कम फ़ाइलों में परिणामों को गठबंधन करने के लिए पहचान Reducer का उपयोग करने के बारे में थोड़ा विस्तार कर सकते हैं? मुझे इसी तरह की समस्याओं का सामना करना पड़ रहा था - मानचित्र-केवल नौकरियों द्वारा उत्पन्न बहुत सी छोटी फाइलें। क्या यह केवल नक्शा-नौकरियों की तुलना में कम कुशल होगा? –
यितोंग - पहचान रेड्यूसर का उपयोग करते समय अतिरिक्त ओवरहेड है क्योंकि मैपर आउटपुट को एक्स बाल्टी में धोना पड़ता है और फिर एक्स रेड्यूसर (यानी जहां एक्स आउटपुट फाइलों की आपकी वांछित संख्या होती है) को भेजा जाता है, क्रमबद्ध, और फिर एचडीएफएस/एस 3/आदि पर आउटपुट निर्देशिका में सहेजा गया। यदि आपके पास डेटा का एक टन है, तो आपको इस अतिरिक्त ओवरहेड से सावधान रहना होगा क्योंकि यह कुछ मामलों में महत्वपूर्ण हो सकता है। वैकल्पिक रूप से, यदि एचडीएफएस को सहेजते हैं, तो आप सभी फ़ाइलों के आउटपुट को एक स्थान पर स्ट्रीम करने के लिए 'hdfs cat' का उपयोग कर सकते हैं। मुझे नहीं पता कि एस 3 में एक समान स्ट्रीम-रीडिंग तंत्र है या नहीं। –