(यहां तक कि Difference between Pig and Hive? Why have both? की तुलना में अधिक मूल)प्रत्यक्ष जावा मानचित्र के बजाय डेटा प्रोसेसिंग के लिए सुअर/हाइव का उपयोग कोड को कम करता है?
मैं एक डाटा प्रोसेसिंग पाइप लाइन में लिखा है कई जावा नक्शा को कम Hadoop से अधिक कार्यों (मेरे अपने कस्टम कोड, Hadoop के मैपर और प्रसारण से प्राप्त)। यह बुनियादी परिचालनों की एक श्रृंखला है जैसे कि शामिल, उलटा, क्रमबद्ध और समूह द्वारा। मेरा कोड शामिल है और बहुत सामान्य नहीं है।
इस स्वीकार्य रूप से विकास-केंद्रित दृष्टिकोण बनाम जारी रखने के पेशेवरों और विपक्ष क्या हैं जो कई यूडीएफ के साथ पिग/हाइव में सब कुछ माइग्रेट कर रहे हैं? मैं कौन सी नौकरियां निष्पादित नहीं कर पाऊंगा? क्या मुझे प्रदर्शन में गिरावट आती है (टीबी के 100 के साथ काम करना)? क्या मैं बनाए रखने के दौरान अपने कोड को ट्विक और डीबग करने की क्षमता खो दूंगा? क्या मैं जावा मैप-कम करने के रूप में नौकरियों के पाइपलाइन हिस्से में सक्षम हो जाऊंगा और अपने पिग/हाइव नौकरियों के साथ अपने इनपुट आउटपुट का उपयोग करूंगा?
(मैं ट्विटर पर पिग पर काम करता हूं): 110-150% संख्या कुछ हद तक मनमानी है। अक्सर, सुअर आपके कोड से तेज़ तरीका होगा क्योंकि यह बहुत अनुकूलन करता है। मूल रूप से, यह चीजों को एमआर में अनुवाद करता है, इसलिए यह एमआर से तेज नहीं हो सकता है। लेकिन सीधा शुरुआती-से-इंटरमीडिएट एमआर कोड अक्सर पिग को खो देगा। अंतर्दृष्टि के लिए – SquareCog
Thnx। –