2011-09-24 15 views
7

Hadoop : The Definitive Guide के अनुसार।मानचित्र/डेटा को कम करने में डेटा कैसे खींचें?

नया एपीआई एक "पुश" और पुनरावृत्ति की "पुल" शैली दोनों का समर्थन करता है। दोनों एपीआई में, कुंजी-मूल्य रिकॉर्ड जोड़े को मैपर पर धक्का दिया जाता है, लेकिन इसके अलावा, नया एपीआई मैपर को मानचित्र() विधि के भीतर से रिकॉर्ड खींचने की अनुमति देता है। रेड्यूसर के लिए भी यही है। "पुल" शैली कैसे उपयोगी हो सकती है इसका एक उदाहरण बैच में रिकॉर्ड्स प्रोसेसिंग कर रहा है, बजाय एक-एक करके।

क्या किसी ने मानचित्र/घटाए गए कार्यों में डेटा खींच लिया है? मुझे एपीआई या इसके लिए उदाहरण में दिलचस्पी है।

उत्तर

5

मैंने एक प्रश्न @ [email protected] पोस्ट किया और जवाब मिला।

अगला कुंजी मान जोड़ी उस संदर्भ वस्तु से पुनर्प्राप्त की जा सकती है जो मानचित्र पर पास की जाती है, nextKeyValue() पर कॉल करके। तो आप नए एपीआई में इसके अगले डेटा को खींचने में सक्षम होंगे।

क्या इस परिदृश्य में धक्का से बेहतर खींचने का प्रदर्शन है? साथ ही, परिदृश्य क्या हैं जिसमें पुल उपयोगी होगा?

+0

मुझे लगता है कि यह परिदृश्य तब उपयोगी होगा जब वर्तमान कुंजी/मान की प्रसंस्करण अगले कीवल्यू जोड़ी पर निर्भर होगी। –

+0

यह पुरानी और नई एपीआई के साथ किया जा सकता था। लेकिन, चुनौती उस स्थिति को संभालने में है जब डेटा ब्लॉक में फैलता है। –

+0

आप इसे पुराने एपीआई के साथ कैसे कर सकते हैं? –

संबंधित मुद्दे