2015-08-22 6 views
5

क्या कोई प्रदर्शन बेंचमार्क (वास्तविक) है जो स्टिंगर बनाम इंपला बनाम ड्रिल की तुलना करता है? इसके अलावा, जिसे प्राथमिकता दी जाती है - मेरा उपयोग मामला मुख्य रूप से हाइव के शीर्ष पर विज्ञापन-प्रसार इंटरैक्टिव प्रश्नों की ओर होगा। धन्यवाद।अपाचे ड्रिल का प्रदर्शन

उत्तर

3

साइट http://allegro.tech/fast-data-hackathon.html पर कुछ प्रदर्शन संख्याएं हैं।

आम तौर पर, हम देखते हैं कि ड्रिल और इंपला ड्रिल के भेदभाव के साथ इंटरैक्टिव प्रश्नों के प्रदर्शन में तुलनीय हैं, मेटाडेटा परिभाषाओं के बिना क्वेरी करने की क्षमता और जेएसओएन डेटा के साथ काम करने में आसानी की क्षमता है।

ध्यान दें कि ये परीक्षण ड्रिल पर 0.8/0.9 (डेटा इलाके के लिए उचित रूप से कॉन्फ़िगर नहीं किए गए) पर बहुत पुराने संस्करणों पर हैं। एसक्यूएल (विंडो फ़ंक्शंस इत्यादि) और प्रदर्शन पर बहुत सारे सुधारों के साथ अब ड्रिल 1.1 है।

+0

आपके उत्तर के लिए धन्यवाद, Stinger.next पर आपके विचार क्या हैं? यह ड्रिल के खिलाफ तुलना कैसे करता है? यह निर्धारित करने के लिए कोई भी मानक कौन सा तेज़ है? – Sai

+0

टीबी के डेटासेट से निपटने के दौरान भी ड्रिल प्रदर्शन कर सकते हैं? मैंने पढ़ा है कि इंपला और प्रेस्टो विशाल डेटासेट पर जटिल प्रश्नों के लिए उपयुक्त नहीं हैं। – Sai

2

आप इस तरह के बेंचमार्क नहीं कर सकते हैं, यह कोई समझ नहीं है और आपको इस तरह के बेंचमार्क पर भरोसा नहीं करना चाहिए।

सबकुछ आपके डेटा पर निर्भर करेगा, आपके पास JSON फ़ाइलें हैं? ड्रिल पसंद करते हैं। आप 1TB से अधिक पूछना चाहते हैं, हाइव पसंद करते हैं और इसी तरह।

इसके अलावा, आप फ़ाइल प्रारूप, जेएसओएन, कुडू, लकड़ी या ओआरसी पर विचार कर सकते हैं।

फिर अनुकूलन आएं, हाइव + तेज़ पैरारल प्रश्नों के लिए बेहतर लगता है लेकिन एकल क्वेरी के लिए बहुत धीमा लगता है। जबकि Impala विपरीत है (MassReduce बनाम MassiveParrarelProcessing)।

इसके अलावा, आप, हार्डवेयर ressource, डिस्क एसएसडी या नहीं आदि ..

मेरा सुझाव पर विचार अपाचे ड्रिल + JSON फ़ाइल के साथ शुरू है, तो लकड़ी या ओआरसी के साथ अपाचे ड्रिल की कोशिश करना चाहते हैं।

यदि आप सहायता चाहते हैं, तो वास्तव में वर्णन करें कि आपके पास क्या है (डेटा + हार्डवेयर) और आप क्या चाहते हैं।

+0

हाय थॉमस, मैं 512 जीबी रैम और 48 सीपीयू के साथ एक एकल नोड पर बड़े ड्रिल प्रश्नों को चलाने की कोशिश कर रहा हूं। क्वेरी को लगभग 30 जीबी डेटा चलाने के लिए बहुत लंबा समय लगता है। सभी रिकॉर्ड एकत्र करने में 1 घंटे से अधिक समय लग रहा है। क्या आपके पास कोई ट्यूनिंग पैरामीटर है जिसके लिए मुझे इसकी जांच करनी है? –

+1

1 नोड? आपको समझना होगा कि ड्रिल क्या है, जैसे प्रेस्टो डीबी, इंपला ... यह एक एमपीपी बड़े पैमाने पर समानांतर प्रोसेसिंग इंजन है, इसलिए, कई नोड्स ^^ –

+2

होना बेहतर है क्योंकि हमारे पास 48 सीपीयू हैं जो हम इनके बीच समानांतर कर सकते हैं? –

संबंधित मुद्दे