2011-09-29 18 views
5

मैं Hadoop in Action पढ़ सकते हैं और पाया गया कि Java में उपयोग कर MultipleOutputFormat और MultipleOutputs कक्षाओं हम एक से अधिक फ़ाइलों के लिए डेटा को कम कर सकते हैं, लेकिन क्या मुझे यकीन है कि नहीं कर रहा हूँ कैसे करने के लिए है (जावा हालांकि साथ इसके संभावित) एकाधिक आउटपुट से कम करने के लिए? Python streaming का उपयोग कर एक ही चीज़ प्राप्त करें।अजगर स्ट्रीमिंग: कैसे

उदाहरण के लिए

:

   /out1/part-0000 
mapper -> reducer 
        \ out2/part-0000 

किसी को भी जानता है, सुना है, किया समान बात है, मुझे पता है

उत्तर

2

Dumbo Feathers, जावा वर्गों Dumbo के साथ एक साथ उपयोग करने के लिए का एक सेट (एक अजगर पुस्तकालय तो कृपया कि हडूप के लिए कुशल पायथन एम/आर प्रोग्राम लिखना आसान बनाता है), यह output classes में करता है।

मूल रूप से, आपके पायथन डंबो एम/आर नौकरी में, आप एक कुंजी आउटपुट करते हैं जो दो तत्वों का एक समूह है - पहला तत्व वास्तविकता होने के लिए निर्देशिका का नाम होता है, दूसरा तत्व वास्तविक कुंजी होता है। आपके द्वारा चुने गए आउटपुट क्लास में टोपल का निरीक्षण करने के लिए आउटपुट निर्देशिका का उपयोग करने का निरीक्षण किया जाता है, और विभिन्न उपनिर्देशिकाओं को लिखने के लिए एकाधिकऑटपुटफॉर्मैट का उपयोग करें।

डंबो के साथ, टाइपपुटबाइट्स के आउटपुट प्रारूप के रूप में उपयोग करना आसान है, लेकिन मुझे लगता है कि यदि आपके पास अन्य आउटपुट प्रारूप हैं तो भी यह करने योग्य होना चाहिए।

+0

मैं इसका उपयोग कैसे करूं? बस जार डाउनलोड करें, किसी भी मानचित्र को प्रभावित किए बिना "-libjar feathers.jar" दें/नौकरी कम करें जो मैंने अभी तक लिखा है? कोई नमूना परीक्षण कोड जिसे मैं चलाने के लिए संदर्भित कर सकता हूं, उपयोगी होगा – daydreamer

संबंधित मुद्दे