मैं पाइथन में लिखे गए मैपर और रेड्यूसर के साथ हडोप (अमेज़ॅन के ईएमआर पर) में स्ट्रीमिंग नौकरी चला रहा हूं। मैं स्पीड लाभों के बारे में जानना चाहता हूं, यदि मैं जावा में एक ही मैपर और रेड्यूसर लागू करता हूं (या सुअर का उपयोग करता हूं)।हडोप में स्ट्रीमिंग या कस्टम जार
विशेष रूप से, मैं स्ट्रीमिंग से कस्टम जार तैनाती और/या सुअर और इन विकल्पों के बेंचमार्क तुलना वाले दस्तावेज़ों में माइग्रेट करने पर लोगों के अनुभवों की तलाश में हूं। मुझे यह question मिला, लेकिन उत्तर मेरे लिए पर्याप्त विशिष्ट नहीं हैं। मैं जावा और पायथन के बीच तुलना की तलाश नहीं कर रहा हूं, लेकिन हैडोप और पायथन-आधारित स्ट्रीमिंग में कस्टम जार परिनियोजन के बीच तुलना।
मेरा काम Google पुस्तकें एनजीग्रैम डेटासेट से एनजीआरएम गणना पढ़ रहा है और कुल उपायों की गणना कर रहा है। ऐसा लगता है कि गणना नोड्स पर सीपीयू उपयोग 100% के करीब है। (मैं सीपीयू-बाउंड या आईओ-बाउंड नौकरी रखने के मतभेदों के बारे में भी आपकी राय सुनना चाहता हूं)।
धन्यवाद!
अमैका
धन्यवाद! चूंकि मेरे पास पहले से ही सादा पाठ इनपुट/आउटपुट आवश्यकताएं हैं, इसलिए कस्टम इनपुट प्रारूप मेरे मामले में अप्रासंगिक हैं। सुअर का मूल्यांकन मुझे बताता है कि मैं इससे दूर रह सकता हूं। मेरे पास पहले से ही पाइथन कार्यान्वयन है। मेरी स्क्रिप्ट सीपीयू-गहन हैं। वे सिर्फ मानक इनपुट से पढ़ते हैं, कुछ संख्या क्रंचिंग करते हैं, और परिणाम आउटपुट करते हैं। लेकिन मुझे यकीन नहीं है कि इसका मतलब है कि मेरा हैडोप नौकरी पूरी तरह से सीपीयू-बाध्य माना जा सकता है। किसी भी मामले में, मैं वास्तव में पूछना चाहता था कि क्या नौकरी सीपीयू-बाध्य या आईओ-बाध्य है और क्या इसे कस्टम जार या स्ट्रीमिंग जॉब के रूप में लागू किया गया है या नहीं। –
इस तथ्य को ध्यान में रखते हुए कि आपका मानचित्र और घटा कार्य अपने स्वयं के जेवीएम पर चल रहा है, और तथ्य यह है कि आम तौर पर मानचित्र और कार्यों को कम करने के लिए सीपीयू बाध्य होते हैं, ये व्यक्तिगत हडोप कार्य सीपीयू बाध्य होगा। हडोप नौकरी के लिए समन्वय जेवीएम शायद आईओ गहन होगा क्योंकि नक्शा में डेटा भेजने और परत को कम करने के व्यक्तिगत कार्यों से प्रतिक्रिया के लिए प्रतीक्षा में व्यस्त है। –
दरअसल, मुझे अभी एहसास हुआ, जेवीएम जिस पर मानचित्र और कार्य कम हो रहा है, कुछ आईओ (एचडीएफएस से इनपुट में स्ट्रीमिंग और आउटपुट को एचडीएफएस में लिखना) को भी संभालता है। चूंकि हडूप यह सुनिश्चित करता है कि नक्शा फ़ंक्शन डेटा के नजदीक किया जाता है, जो आम तौर पर बहुत तेज होता है (यह कम कार्य के लिए सच नहीं है)। –