में RDD और प्रदर्शन में विभाजन Pyspark में की संख्या, मैं एक सूची में से एक RDD बना सकते हैं और तय करते हैं कि कितने विभाजन के लिए कर सकते हैं:स्पार्क
sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)
कैसे विभाजन मैं अपने RDD विभाजन करने का फैसला करता है की संख्या प्रदर्शन में प्रभाव? और यह मेरी मशीन के कोर की संख्या पर निर्भर करता है?
मैं अत्यधिक अनुशंसा करता हूं [लिंक] (http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/)। "ट्यूनिंग समांतरता" खंड पर जाएं। यह बहुत जटिल हो जाता है, लेकिन यह निश्चित रूप से गहराई में है। वास्तव में –