में विभाजन आकार को कैसे बदलें मुझे स्पार्क-एसक्यूएल HiveContext
का उपयोग करके एक हाइव टेबल से डेटा लोड करने की आवश्यकता है और एचडीएफएस में लोड करें। डिफ़ॉल्ट रूप से, SQL आउटपुट से DataFrame
में 2 विभाजन होते हैं। अधिक समांतरता प्राप्त करने के लिए मुझे SQL से अधिक विभाजन की आवश्यकता है। विभाजन पैरामीटर की संख्या लेने के लिए HiveContext में कोई ओवरलोडेड विधि नहीं है।स्पार्क एसक्यूएल
आरडीडी की पुनरावृत्ति के कारण शफल हो रहा है और परिणामस्वरूप अधिक प्रसंस्करण समय होता है।
val result = sqlContext.sql("select * from bt_st_ent")
का लॉग आउटपुट है: मैं जानना चाहूंगा
Starting task 0.0 in stage 131.0 (TID 297, aster1.com, partition 0,NODE_LOCAL, 2203 bytes)
Starting task 1.0 in stage 131.0 (TID 298, aster1.com, partition 1,NODE_LOCAL, 2204 bytes)
वहाँ किसी भी तरह से एसक्यूएल उत्पादन का विभाजन आकार बढ़ाने के लिए है।
यह डेटासेट का उपयोग कर स्पार्क 2.1.1 के लिए हमारे क्लस्टर में काम नहीं किया –
Luckylukee