स्पार्क के लिए एचडीएफएस में gzipped लकड़ी की छत फ़ाइल splittable है?

इस विषय पर इंटरनेट पर जवाब खोजने और पढ़ने के दौरान मुझे भ्रमित संदेश मिलते हैं। कोई भी अपना अनुभव साझा कर सकता है? मुझे एक तथ्य के बारे में पता है कि gzipped csv नहीं है, लेकिन शायद लकड़ी के लिए आंतरिक संरचनाएं फाइलें ऐसी हैं कि यह लकड़ी के बनाम सीएसवी के लिए बिल्कुल अलग मामला है?स्पार्क के लिए एचडीएफएस में gzipped लकड़ी की छत फ़ाइल splittable है?

स्रोत

2017-04-10 YuGagarin

जीजेआईपी संपीड़न के साथ लकड़ी की छत फ़ाइलें वास्तव में विभाजित हैं। यह लकड़ी की छत फ़ाइलों के आंतरिक लेआउट की वजह से है। ये हमेशा विभाजित होते हैं, प्रयुक्त संपीड़न एल्गोरिदम से स्वतंत्र होते हैं।

इस तथ्य को मुख्य रूप से लकड़ी फ़ाइलों के डिजाइन है जो निम्न भागों में विभाजित की वजह से है:

प्रत्येक लकड़ी फ़ाइलों कई RowGroups के होते हैं, इन के रूप में अपने HDFS ब्लॉक आकार एक ही आकार होना चाहिए।
प्रत्येक पंक्ति समूह में कॉलमचंक प्रति कॉलम होता है। एक पंक्ति समूह में प्रत्येक कॉलमचंक में पंक्तियों की एक ही संख्या है।
कॉलमचंच पेजों में विभाजित हैं, ये शायद 64KiB से 16MiB के आकार में हैं। प्रति पृष्ठ आधार पर पर संपीड़न किया जाता है, इस प्रकार एक पृष्ठ समानांतरता का निम्नतम स्तर होता है जिस पर नौकरी काम कर सकती है।

आप यहाँ एक अधिक विस्तृत विवरण प्राप्त कर सकते हैं: आपके उत्तर के लिए https://github.com/apache/parquet-format#file-format

स्रोत

2017-04-13 11:20:21 xhochy

धन्यवाद। बस पुष्टि करना चाहते हैं। ये तकनीकी रूप से .gz.parquet फ़ाइलें और parquet.gz फ़ाइलों नहीं होंगे, सही? यह सिर्फ माइक्रोसॉफ्ट पॉलीबेस जैसे उत्पादों को उत्पादक रूप से लकड़ी के प्रारूप में निर्यात करते समय .gz फ़ाइलों का उत्पादन करता है और मैंने अभी तक सत्यापित नहीं किया है कि यह फ़ाइल है जो स्वयं द्वारा संपीड़ित है या फ़ाइल भाग आंतरिक है। – YuGagarin

हां, वे 'gz.parquet' होना चाहिए। लकड़ी की छत के कार्यान्वयन द्वारा लकड़ी के अंदर संपीड़न किया जाना चाहिए। यदि आपके पास ऐसा उपकरण है जो पहले पैराक्वेट उत्पन्न करता है और फिर उन पर जीजेआईपी चलाता है, तो ये वास्तव में अमान्य लकड़ी की फाइलें हैं। लकड़ी के लिए यह आवश्यक है कि प्रारूप के कुछ हिस्सों को संपीड़ित नहीं किया गया है (उदा। हेडर)। ये भाग छोटे होते हैं (अक्सर एक या दो कीबी के आसपास) लेकिन उन्हें संपीड़ित करने से महत्वपूर्ण प्रदर्शन नुकसान होता है। – xhochy

स्पार्क के लिए एचडीएफएस में gzipped लकड़ी की छत फ़ाइल splittable है?

उत्तर

संबंधित मुद्दे