मैं के साथ लेखन का परीक्षण तुलना में बहुत धीमी:partitionBy स्पार्क के बिना यह
df.write.partitionBy("id", "name")
.mode(SaveMode.Append)
.parquet(filePath)
लेकिन अगर मैं विभाजन बाहर छोड़: तेजी से
df.write
.mode(SaveMode.Append)
.parquet(filePath)
यह 100x कार्यान्वित (!)।
क्या विभाजन के दौरान लिखने के लिए डेटा की मात्रा में 100x अधिक समय लगाना सामान्य है?
क्रमशः 10 और 3000 अद्वितीय id
और name
कॉलम मान हैं। DataFrame
में 10 अतिरिक्त पूर्णांक कॉलम हैं।
क्या यह एक शफल का कारण बनता है? – Gillespie
कितना डेटा शामिल है? इसे विभाजित करने के लिए मजबूर करने से पहले यह सब एक विभाजन पर फिट हो सकता है। –
@ गिलेस्पी मैं कैसे पता लगा सकता हूं? इस परीक्षण के लिए – BAR