2014-05-02 16 views
17

Spark Programming Guide आरडीडी (दोनों समांतर संग्रह या हाडोप डेटासेट्स) की एक विशेषता के रूप में स्लाइस का उल्लेख करता है ("स्पार्क क्लस्टर के प्रत्येक टुकड़े के लिए एक कार्य चलाएगा।") लेकिन आरडीडी दृढ़ता के खंड के तहत, विभाजन की अवधारणा का उपयोग किया जाता है परिचय के बिना। इसके अलावा, RDD docs केवल टुकड़ों का कोई उल्लेख नहीं होने के साथ विभाजन का उल्लेख करते हैं, जबकि SparkContext docs आरडीडी बनाने के लिए स्लाइस का उल्लेख करते हैं, लेकिन आरडीडी पर नौकरी चलाने के लिए विभाजन। क्या ये दो अवधारणाएं समान हैं? यदि नहीं, तो वे अलग कैसे होते हैं?आरडीडी विभाजन और एक टुकड़ा के बीच क्या अंतर है?

Tuning - Level of Parallelism इंगित करता है कि "स्पार्क स्वचालित रूप से" आकार "कार्यों की संख्या को प्रत्येक फ़ाइल पर अपने आकार के अनुसार चलाने के लिए सेट करता है ... और वितरित" कमी "संचालन के लिए, जैसे कि समूहबीकी और कम करने के लिए, यह सबसे बड़ा मूल आरडीडी का उपयोग करता है विभाजन की संख्या। आप समान तर्क के स्तर को दूसरे तर्क के रूप में पारित कर सकते हैं .... "तो क्या यह विभाजन और स्लाइस के बीच अंतर को समझाता है? विभाजन आरडीडी स्टोरेज से संबंधित हैं और स्लाइस समानांतरता की डिग्री से संबंधित हैं, और डिफ़ॉल्ट स्प्लिसेस की गणना डेटा आकार या विभाजन की संख्या के आधार पर की जाती है?

+10

मुझे पूरा यकीन है कि वे वही हैं और यह केवल असंगत नामकरण है। मैंने एक बग दायर किया: https://issues.apache.org/jira/browse/SPARK-1701 –

+0

@DanielDarabos Pyspark [समानांतर] (http://spark.apache.org/docs/2.2.0/api/python/ pyspark.html # pyspark.SparkContext.parallelize) अभी भी numSlices को संदर्भित करता है, क्या यह एक बढ़त मामला है? –

+0

बदलते कोड दस्तावेज़ बदलने से अधिक कठिन है। शायद 'sc.parallelize (c, numSlices = 100)' युक्त कोड का एक गुच्छा है। अगर तर्क का नाम बदल दिया गया तो वह टूट जाएगा। –

उत्तर

16

वे वही बात हैं। प्रलेखन को स्पार्क 1.2 के लिए मैथ्यू फेरेलली के लिए धन्यवाद दिया गया है। बग में अधिक जानकारी: https://issues.apache.org/jira/browse/SPARK-1701

संबंधित मुद्दे