हाइव पर, मेरा मानना है कि गिनती (विशिष्ट) समूह की तुलना में अधिक संभावना होगी-जिसके परिणामस्वरूप रेड्यूसर को असंतुलित वर्कलोड होता है और एक दुखी रेड्यूसर पीसने के साथ समाप्त होता है। नीचे उदाहरण क्वेरी।हाइव में समूह की तुलना में गिनती (विशिष्ट) धीमी क्यों है?
क्यों?
उदाहरण क्वेरी: समूह-से साथ
select count(distinct user)
from some_table
संस्करण (के रूप में तेजी से प्रस्तावित):
select count(*) from
(select user
from some_table
group by user) q
नोट: this presentation की स्लाइड 26 समस्या का वर्णन है।
मुझे आपका प्रश्न नहीं समझ रहा है। क्या आप पूछ रहे हैं कि 'समूह द्वारा' संस्करण क्यों तेज है? यदि हां, तो आप क्यों मानते हैं कि यह तेज़ है? आपने इसे कहीं पढ़ा है या आपने इसे इस तरह से व्यवहार किया है? –
केवल Hive1.1 में EXPLAIN – Bohdan