मुझे स्पार्क प्रलेखन संचालन में खोजने में परेशानी है जो एक शफल और ऑपरेशन का कारण बनता है जो नहीं करता है। इस सूची में, कौन सा शफल करता है और कौन सा नहीं करता है?स्पार्क ट्रांसफॉर्मेशन क्या हैं जो शफल का कारण बनता है?
मानचित्र और फ़िल्टर नहीं। हालांकि, मैं दूसरों के साथ निश्चित नहीं हूँ।
map(func)
filter(func)
flatMap(func)
mapPartitions(func)
mapPartitionsWithIndex(func)
sample(withReplacement, fraction, seed)
union(otherDataset)
intersection(otherDataset)
distinct([numTasks]))
groupByKey([numTasks])
reduceByKey(func, [numTasks])
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])
sortByKey([ascending], [numTasks])
join(otherDataset, [numTasks])
cogroup(otherDataset, [numTasks])
cartesian(otherDataset)
pipe(command, [envVars])
coalesce(numPartitions)
यह सिर्फ प्रोग्रामिंग के बारे में आम तौर पर अच्छा बिंदु वास्तव में है। दस्तावेज़ीकरण में अक्सर जानकारी का डुप्लिकेशंस हो सकता है, और डुप्लिकेशन के साथ त्रुटियों और जानकारी की हानि होती है। कोड पढ़ने पर, कोई * बिल्कुल * क्या हो रहा है * – samthebest
दस्तावेज के अनुसार, 'toDebugString' रिटर्न "इस आरडीडी का विवरण और डीबगिंग के लिए इसकी रिकर्सिव निर्भरताएं। इसलिए यदि वे मौजूद हैं तो पूर्व परिवर्तनों से संभावित शफल शामिल होंगे, भले ही सबसे हालिया परिवर्तन में शफल न हो, है ना? –