मैं स्पार्क 1.6.0 और स्कैला का उपयोग करता हूं।डेटाफ्रेम को संपीड़ित (gzipped) CSV के रूप में कैसे सहेजना है?
मैं डेटाफ्रेम को संकुचित सीएसवी प्रारूप के रूप में सहेजना चाहता हूं।
//set the conf to the codec I want
sc.getConf.set("spark.hadoop.mapred.output.compress", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "true")
sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec")
sc.getConf.set("spark.hadoop.mapred.output.compression.type", "BLOCK")
df.write
.format("com.databricks.spark.csv")
.save(my_directory)
उत्पादन gz
स्वरूप में नहीं है:
यहाँ मैं अब तक है (मान मैं पहले से ही SparkContext
रूप df
और sc
है)।
आरडीडी के बारे में संबंधित प्रश्न: http://stackoverflow.com/questions/32231650/spark-rdd-saveastextfile-gzip –