2015-01-19 7 views
6

क्या आरडीडी को दो या कई आरडीडी में डुप्लिकेट करना संभव है?आरडीडी को कई आरडीडी में डुप्लिकेट कैसे करें?

मैं कैसंड्रा-स्पार्क ड्राइवर का उपयोग करना चाहता हूं और एक आरडीडी को एक कैसंड्रा टेबल में सहेजना चाहता हूं, और इसके अलावा, अधिक गणनाओं के साथ आगे बढ़ना जारी रखें (और अंत में परिणाम कैसंद्रा को भी बचाएं)।

उत्तर

7

RDD एस अपरिवर्तनीय हैं और आरडीडी पर परिवर्तन नए आरडीडी बनाते हैं। इसलिए, विभिन्न परिचालनों को लागू करने के लिए आरडीडी की प्रतियां बनाना आवश्यक नहीं है।

आप आधार आरडीडी को माध्यमिक भंडारण में सहेज सकते हैं और आगे संचालन लागू कर सकते हैं।

यह पूरी तरह से ठीक है:

val rdd = ??? 
val base = rdd.byKey(...) 
base.saveToCassandra(ks,table) 
val processed = byKey.map(...).reduceByKey(...) 
processed.saveToCassandra(ks,processedTable) 
val analyzed = base.map(...).join(suspectsRDD).reduceByKey(...) 
analyzed.saveAsTextFile("./path/to/save") 
संबंधित मुद्दे