क्या हैडोप मैपरेडस में कई अलग-अलग मैपर्स के साथ कई इनपुट होना संभव है? प्रत्येक मैपर वर्ग इनपुट के एक अलग सेट पर काम करता है, लेकिन वे सभी एक ही reducer द्वारा खपत कुंजी मूल्य जोड़े उत्सर्जित करेंगे। ध्यान दें कि मैं यहाँ मैपर्स चेनिंग के बारे में बात नहीं कर रहा हूं, मैं समानांतर में अलग-अलग मैपर चलाने के बारे में बात कर रहा हूं, अनुक्रमिक रूप से नहीं।क्या हैडोप मैपरेडस में कई अलग-अलग मैपर्स के साथ कई इनपुट होना संभव है?
उत्तर
इसे शामिल करने के लिए कहा जाता है।
आप मानचित्र में मैपर और reducers का उपयोग करना चाहते हैं। * पैकेज (पुराना, लेकिन अभी भी समर्थित)। नए पैकेज (मैप्रिडस। *) केवल एक मैपर इनपुट की अनुमति देते हैं। mapred संकुल के साथ, आप में शामिल होने को परिभाषित करने के MultipleInputs वर्ग का उपयोग करें:
MultipleInputs.addInputPath(jobConf,
new Path(countsSource),
SequenceFileInputFormat.class,
CountMapper.class);
MultipleInputs.addInputPath(jobConf,
new Path(dictionarySource),
SomeOtherInputFormat.class,
TranslateMapper.class);
jobConf.setJarByClass(ReportJob.class);
jobConf.setReducerClass(WriteTextReducer.class);
jobConf.setMapOutputKeyClass(Text.class);
jobConf.setMapOutputValueClass(WordInfo.class);
jobConf.setOutputKeyClass(Text.class);
jobConf.setOutputValueClass(Text.class);
मैं एक सवाल, 2 जवाब है, और एक विरोधी सिफारिश के साथ अपने प्रश्न का उत्तर होगा।
सवाल यह है कि: श्रृंखला में उन्हें चलाने के विरोध में, समानांतर में विषम नक्शा नौकरियों को चलाने में आप क्या लाभ देखते हैं, जो समान परिणामों को आउटपुट करते हैं जिन्हें उचित रूप से शफल किया जा सकता है? क्या पहचान पहचान मानचित्र के साथ दो बार एक ही रिकॉर्ड को पार करने से बचने का विचार है?
पहला जवाब मैपर-केवल नौकरियों को एक साथ शेड्यूल करना है, प्रत्येक आधे बेड़े पर (या जो भी अनुपात इनपुट डेटा आकार से सबसे अच्छा है), समरूप परिणामों को आउटपुट करना, उसके बाद शामिल होने वाले एक रेड्यूसर-केवल नौकरी के बाद।
दूसरा जवाब एक कस्टम इनपुटफॉर्मैट बनाना है जो विषम इनपुट के दोनों स्वादों को पहचानने और बदलने में सक्षम है। यह बेहद बदसूरत है, लेकिन यह आपको पहले सुझाव के अनावश्यक पहचान मानचित्र से बचने की अनुमति देगा।
विरोधी सिफारिश क्रिस के उत्तर से बहिष्कृत हडोप एपीआई का उपयोग करें। हैडोप बहुत छोटा है, लेकिन एपीआई "नए" स्वाद के आसपास स्थिर हो रहे हैं। आप अंततः संस्करण लॉक-इन पर पहुंचेंगे।
कई मैपर चलाने का कारण यह है कि आप कर सकते हैं FlumeJava पेपर में दिए गए एक फ्लैटन ऑपरेशन को लागू करें। विभिन्न मैपर से आउटपुट एक ही शफल ऑपरेशन में भाग ले सकता है। – tibbe
- 1. हैडोप मैपरेडस इंटरमीडिएट आउटपुट
- 2. मोंगो मैपर्स को समझना कई रिश्तों
- 3. हैडोप में क्या मैपर और रेड्यूसर स्थिर वर्ग होना चाहिए?
- 4. कस्टम मैपरेडस इनपुट प्रारूप - कन्स्ट्रक्टर
- 5. हैडोप और डीजेगो, क्या यह संभव है?
- 6. हैडोप फाइल सिस्टम में कई फ़ाइलों में Grep
- 7. क्या कई चैनलों को एक में मल्टीप्लेक्स करना संभव है?
- 8. इंटरमीडिएट टेबल के बिना कई से कई - क्या यह संभव है?
- 9. क्या कई "पैरा" पैरामीटर संभव हैं?
- 10. कई MATLAB कमांड विंडोज संभव है?
- 11. एचटीएमएल 5 कैश - क्या एक ही यूआरएल के लिए कई अलग-अलग कैश होना संभव है?
- 12. क्या कई परियोजनाओं में एकाधिक टीएफएस कार्यक्षेत्र होना चाहिए?
- 13. एक चर के लिए कई स्ट्रिंग इनपुट
- 14. क्या एक पृष्ठ पर कई ट्विटर बूटस्ट्रैप कैरोसेल होना संभव है?
- 15. मुझे क्या याद आ रही है: कई तर्कों के साथ कार्य रचना संभव है?
- 16. एक साथ कई सूचियों को जोड़ना संभव है? (पायथन)
- 17. कई रिश्तों के लिए कई
- 18. कई आत्म-प्रकार संभव हैं?
- 19. कई आउटपुट के साथ AVCaptureSession?
- 20. क्या कई टेबल्स में से कई को प्राथमिक कुंजी चाहिए?
- 21. हडोप जॉब कई निर्देशिकाओं से इनपुट फाइलें ले रहा है
- 22. क्या एचक्यूएल के साथ कई सारे संगठनों से हटाना संभव है?
- 23. एक कॉलबैक के साथ कई स्लाइडर्स
- 24. क्या 4 ऑब्जेक्ट्स के साथ हैशपैप होना संभव है?
- 25. कई अनुप्रयोगों के साथ ELMAH
- 26. कई के लिए कई रिश्ते
- 27. कई से कई रिश्तों में अधिकतम मूल्य
- 28. कई डेटाबेस के साथ कई रिश्ते हैं और
- 29. क्या एक मॉक ऑब्जेक्ट बनाना संभव है जो EasyMock के साथ कई इंटरफेस लागू करता है?
- 30. क्या स्कैला में कई पैरामीटर के साथ निहित कार्यों का कोई उपयोग है? कई मापदंडों के साथ
नया एपिस ('मैप्रेडस 'नहीं' मैप्रेड ') में' एकाधिक इनपुट 'हैं: http://hadoop.apache.org/common/docs/r1.0.3/api/org/apache/hadoop/mapreduce/lib /input/MultipleInputs.html –
@ डोनाल्ड खान: बिल्कुल सही। –
@DonaldMiner कुछ संस्करण करते हैं, लेकिन ऐसा लगता है कि कम से कम 0.20.x नहीं है, उदा। यहां एकाधिक इनपुट की कमी ध्यान दें: http://hadoop.apache.org/docs/r0.20.205.0/api/org/apache/hadoop/mapreduce/lib/input/ – kabuko