मैं parquet
फ़ाइल में लिखने का स्पार्क एसक्यूएल उपयोग करने के लिए कोशिश कर रहा हूँ।स्पार्क एसक्यूएल - तेज़ बनाम lzo संपीड़न प्रारूपों बनाम gzip के बीच का अंतर
डिफ़ॉल्ट रूप से स्पार्क एसक्यूएल gzip
का समर्थन करता है, लेकिन यह snappy
और lzo
जैसे अन्य संपीड़न प्रारूपों का भी समर्थन करता है।
इन संपीड़न प्रारूपों किसे सबसे अच्छी Hive
लोड हो रहा है के साथ काम करने के लिए है में क्या अंतर है।
ऐसा लगता है कि डिफ़ॉल्ट रूप से चिंगारी "तेज़" का उपयोग करता है और नहीं "gzip"। कम से कम यही मैं एस 3 पर देखता हूं: उनके नाम के हिस्से के रूप में स्ट्रिंग "स्नैपी" के साथ बनाई गई फाइलें। – bashan
@bashan: स्पार्क के हाल के संस्करणों ने 1.6.1 तक डिफ़ॉल्ट प्रारूप को बदल दिया है, मैं डिफ़ॉल्ट पैराक्वेट संपीड़न प्रारूप gzip देख सकता हूं। – Shankar