2016-12-19 11 views
6

मेरे पास कई ज़िपित सीएसवी फाइलों (उपयोग लॉग) के साथ एक एस 3 बाल्टी है। मैं इस डेटा को एथेना के साथ पूछना चाहता हूं, लेकिन आउटपुट पूरी तरह से खराब हो गया है।अमेज़ॅन एथेना और संपीड़ित एस 3 फाइलें

ऐसा लगता है कि एथेना ज़िप फ़ाइलों को पहले बिना डिकंप्रेस किए पार्स करने का प्रयास कर रही है। क्या हाइव को कंप्रेस्ड डेटा के रूप में मेरी फाइलों को पहचानने के लिए बाध्य करना संभव है?

उत्तर

12

एथेना संपीड़न के लिए समर्थित है, लेकिन समर्थित स्वरूपों

  • तेज़ (.snappy)
  • Zlib (.bz2)
  • gzip (.gz)

उन स्वरूप हैं उनके फ़ाइल नाम प्रत्यय द्वारा पता चला है। यदि प्रत्यय मेल नहीं खाता है, तो पाठक सामग्री को डीकोड नहीं करता है। मैंने इसे test.csv.gz फ़ाइल के साथ परीक्षण किया और यह तुरंत काम किया। तो ज़िप से gzip में संपीड़न बदलने की कोशिश करें और यह काम करना चाहिए।

+0

धन्यवाद जेन्स। मुझे डर था कि यह जवाब हो सकता है। मैं इस बाल्टी में प्रारूप को नियंत्रित नहीं कर सकता, मुझे प्रोग्रामेटिक रूप से अनजिप करने और उन्हें कहीं और स्टोर करने के लिए नौकरी निर्धारित करने की आवश्यकता होगी। – MattY