2012-01-31 19 views
6

मेरी नौकरी को प्रतिलिपि की आवश्यकता नहीं है, प्रति कुंजी केवल एकत्रीकरण जानकारी। इसलिए मुझे लगता है कि प्रदर्शन बढ़ाने के क्रम में सभी जानकारी को सॉर्ट करना अक्षम करना संभव है।क्या हैडूप में सॉर्टिंग को अक्षम करना संभव है?


नोट: मैं reducers शून्य करने के लिए गिनती क्योंकि मैं कई मानचित्रकारों के बीच डेटा को समेकित करने की जरूरत है निर्धारित नहीं कर सकते। मुझे सिर्फ एक reducer के साथ क्रमबद्ध परिणाम में दिलचस्पी नहीं है।

+0

AFAIK, एमआर नौकरी में सॉर्टिंग आवश्यक चरण है, आप इसे छोड़ नहीं सकते हैं। सॉर्टिंग आमतौर पर प्रदर्शन ओवरहेड का महत्वपूर्ण तत्व नहीं है। – wlk

+0

युरा, क्या आपको कोई समाधान मिला? मैं एक डुप्ली के रूप में बंद करने के लिए मतदान कर रहा हूं, क्योंकि दूसरे प्रश्न में, वास्तव में एक जवाब है! – gsamaras

+0

[हडोप और पायथन: सॉर्टिंग अक्षम करें] का संभावित डुप्लिकेट (http://stackoverflow.com/questions/19188263/hadoop-and-python-disable-sorting) – gsamaras

उत्तर

0

नक्शा आउटपुट को सॉर्ट करने के मुख्य उद्देश्य में से एक है, जब ट्यूपल्स रेड्यूसर तक पहुंचता है, रेड्यूसर को रेड्यूसर कार्य का आह्वान करना पड़ता है, सॉर्ट किए गए मानचित्र आउटपुट सूची के साथ यह अनुक्रमिक स्कैन द्वारा सूची बना सकता है (जब यह अलग-अलग कुंजी देखता है, फिर केवल नई सूची बनाएं), यदि नक्शा आउटपुट सॉर्ट नहीं किया गया है तो उसे संपूर्ण सूची को उसी कुंजी के साथ सूची बनाने के लिए स्कैन करना होगा।

संबंधित मुद्दे