के लिए प्रत्येक विभाजन आकार खोजें किसी दिए गए आरडीडी के लिए प्रत्येक विभाजन आकार को खोजने का सबसे अच्छा तरीका क्या है।स्पार्क: आरडीडी
l = builder.rdd.glom().map(len).collect() # get length of each partition
print('Min Parition Size: ',min(l),'. Max Parition Size: ', max(l),'. Avg Parition Size: ', sum(l)/len(l),'. Total Partitions: ', len(l))
यह छोटे RDDs के लिए ठीक काम करता है, लेकिन बड़ा RDDs के लिए, यह OOM त्रुटि दे रहा है: मैं एक विषम विभाजन मुद्दे डिबग करने के लिए कोशिश कर रहा हूँ, मैं इस कोशिश की है। मेरा विचार यह है कि glom()
ऐसा होने का कारण बन रहा है। लेकिन वैसे भी, सिर्फ यह जानना चाहता था कि ऐसा करने का कोई बेहतर तरीका है या नहीं?
यह अच्छा होगा यदि आप ओपी के दृष्टिकोण के साथ समझा सकते हैं तो उसके मामले में काम नहीं कर रहा है और यह दृष्टिकोण ** ** क्यों काम कर रहा है ...? –