विधि saveAsTextFile
उपयोग करने के लिए कोडेक वर्ग के एक अतिरिक्त वैकल्पिक पैरामीटर लेता है। तो अपने जैसे उदाहरण के लिए इस gzip उपयोग करने के लिए यह कुछ होना चाहिए:
someMap.saveAsTextFile("hdfs://HOST:PORT/out", classOf[GzipCodec])
अद्यतन
जब से तुम 0.7.2 का उपयोग कर रहे आप विन्यास विकल्पों के माध्यम से संपीड़न कोड बंदरगाह के लिए सक्षम हो सकता है कि आप स्टार्टअप पर सेट करें। मुझे यकीन है कि अगर यह वास्तव में काम करेंगे नहीं कर रहा हूँ, लेकिन आप इस से जाने की जरूरत है: अपने config शायद पोस्टिंग होगी,
System.setProperty("spark.hadoop.mapred.output.compress", "true")
System.setProperty("spark.hadoop.mapred.output.compression.codec", "true")
System.setProperty("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec")
System.setProperty("spark.hadoop.mapred.output.compression.type", "BLOCK")
आप इसे काम करने के लिए मिलता है: कुछ इस तरह के
conf.setCompressMapOutput(true)
conf.set("mapred.output.compress", "true")
conf.setMapOutputCompressorClass(c)
conf.set("mapred.output.compression.codec", c.getCanonicalName)
conf.set("mapred.output.compression.type", CompressionType.BLOCK.toString)
दूसरों के लिए भी सहायक हो।
चिंगारी का कौन सा संस्करण के साथ इस काम करता है? मैं चिंगारी से 0.7 का उपयोग कर रहा है। 2 और मुझे संकलन समय में एक त्रुटि मिलती है: 'त्रुटि: विधि saveAsTextFile' के लिए बहुत से तर्क। मैंने देखा कि यह [चर्चा] था [https://github.com/mesos/spark/pull/645) हालांकि। – ptikobj
मुझे लगता है कि यह नवीनतम स्पार्क-0.8.0 में है। ऐसा लगता है क्योंकि ऐसा लगता है क्योंकि यह एक महत्वपूर्ण विशेषता है। – ptikobj
आह, यह समझ में आता है। मैं मास्टर शाखा के साथ काम कर रहा हूं, 0.7.2 नहीं। – Noah