2009-12-22 15 views
12

में उपलब्ध reducers मुझे उम्मीद है कि मैं इसे सही तरीके से पूछ रहा हूँ। मैं लोचदार MapReduce के आसपास अपना रास्ता सीख रहा हूं और मैंने "कुल" reducer के कई संदर्भ देखे हैं जिनका उपयोग "स्ट्रीमिंग" नौकरी प्रवाह के साथ किया जा सकता है। वहाँ अन्य डिफ़ॉल्ट reducers availiable हैं:लोचदार MapReduce

अमेज़न के "अमेज़न लचीला MapReduce का परिचय" पीडीएफ में यह कहा गया है

क्या मैं जानना चाहूंगा कि "अमेज़न लचीला MapReduce aggregrate के नाम से डिफाल्ट कम करने है"?

मैं समझता हूँ कि मैं अपने ही कम करने में लिख सकते हैं, लेकिन मैं नहीं है कुछ पहले से मौजूद है कि लेखन खत्म करने के लिए और चाहते हैं "पहिया बदलने" क्योंकि मुझे यकीन है कि मेरे पहिया के रूप में रूप में अच्छा नहीं होगा हूँ मूल।

उत्तर

4

मैं इसी तरह की स्थिति में हूं। मैं Google परिणामों से अनुमान लगाता हूं कि अभी जवाब है "नहीं, हडोप में कोई अन्य डिफ़ॉल्ट reducers नहीं हैं", जो कि बेकार है, क्योंकि यह स्पष्ट रूप से उपयोगी होगा जैसे कि "औसत" या "औसत" "तो आपको अपना खुद का लिखना नहीं है।

http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/lib/aggregate/package-summary.html कई उपयोगी एग्रीगेटर उपयोग दिखाता है लेकिन मुझे दस्तावेज़ीकरण में वर्णित मूलभूत मूल/मूल्य राशि और एरिक फोर्सबर्ग के उत्तर में अन्य कार्यक्षमता तक पहुंचने के लिए दस्तावेज़ नहीं मिल रहा है। शायद यह कार्यक्षमता केवल जावा एपीआई में उजागर है, जिसका मैं उपयोग नहीं करना चाहता हूं।

संयोग से, मुझे डर है कि एरिक फोर्सबर्ग का जवाब इस विशेष प्रश्न का अच्छा जवाब नहीं है। एक अन्य सवाल जिसके लिए यह एक उपयोगी उत्तर हो सकता है, लेकिन ओपी पूछ रहा है कि यह नहीं है।

8

कम करने वे उल्लेख यहाँ प्रलेखित है:

http://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapred/lib/aggregate/package-summary.html

एक कम करने कि स्ट्रीमिंग उपयोगिता में बनाया गया है है कि। यह एक मैपर लिखकर सामान्य गणना करने का एक आसान तरीका प्रदान करता है जो आउटपुट कुंजियां जिन्हें विशेष तरीके से स्वरूपित किया जाता है।

उदाहरण के लिए, यदि आपके नक्शाकार आउटपुट:

LongValueSum:id1\t12 
LongValueSum:id1\t13 
LongValueSum:id2\t1 
UniqValueCount:id3\tval1 
UniqValueCount:id3\tval2 

कम करने के लिए प्रत्येक LongValueSum की राशि की गणना करेगा, और UniqValueCount के लिए अलग-अलग मान गिनती। कम करने उत्पादन इसलिए हो जाएगा:

id1\t25 
id2\t12 
id3\t2 

reducers और इस पैकेज में समेलक बहुत तेजी से, स्ट्रीमिंग समेलक और reducers चल की तुलना में तो कुल पैकेज का उपयोग कर रहे दोनों सुविधाजनक और तेजी से है।

संबंधित मुद्दे