इस विषय पर इंटरनेट पर जवाब खोजने और पढ़ने के दौरान मुझे भ्रमित संदेश मिलते हैं। कोई भी अपना अनुभव साझा कर सकता है? मुझे एक तथ्य के बारे में पता है कि gzipped csv नहीं है, लेकिन शायद लकड़ी के लिए आंतरिक संरचनाएं फाइलें ऐसी हैं कि यह लकड़ी के बनाम सीएसवी के लिए बिल्कुल अलग मामला है?स्पार्क के लिए एचडीएफएस में gzipped लकड़ी की छत फ़ाइल splittable है?
6
A
उत्तर
11
जीजेआईपी संपीड़न के साथ लकड़ी की छत फ़ाइलें वास्तव में विभाजित हैं। यह लकड़ी की छत फ़ाइलों के आंतरिक लेआउट की वजह से है। ये हमेशा विभाजित होते हैं, प्रयुक्त संपीड़न एल्गोरिदम से स्वतंत्र होते हैं।
इस तथ्य को मुख्य रूप से लकड़ी फ़ाइलों के डिजाइन है जो निम्न भागों में विभाजित की वजह से है:
- प्रत्येक लकड़ी फ़ाइलों कई RowGroups के होते हैं, इन के रूप में अपने HDFS ब्लॉक आकार एक ही आकार होना चाहिए।
- प्रत्येक पंक्ति समूह में कॉलमचंक प्रति कॉलम होता है। एक पंक्ति समूह में प्रत्येक कॉलमचंक में पंक्तियों की एक ही संख्या है।
- कॉलमचंच पेजों में विभाजित हैं, ये शायद 64KiB से 16MiB के आकार में हैं। प्रति पृष्ठ आधार पर पर संपीड़न किया जाता है, इस प्रकार एक पृष्ठ समानांतरता का निम्नतम स्तर होता है जिस पर नौकरी काम कर सकती है।
आप यहाँ एक अधिक विस्तृत विवरण प्राप्त कर सकते हैं: आपके उत्तर के लिए https://github.com/apache/parquet-format#file-format
संबंधित मुद्दे
- 1. बिना हडोप के लकड़ी की छत?
- 2. स्पार्क लकड़ी की छत सांख्यिकी (न्यूनतम/अधिकतम) एकीकरण
- 3. विभाजित लकड़ी की छत फ़ाइलों के लिए नया डेटा जोड़ें
- 4. लकड़ी की छत फ़ाइलों के लिए मेटाडेटा उत्पन्न करें
- 5. स्पार्क (pyspark) का उपयोग कर एक लकड़ी की छत फ़ाइल कैसे लिख सकता हूं?
- 6. लकड़ी की छत फ़ाइलों का स्पार्क आयात तारों को बदलता है
- 7. लकड़ी की छत में नेस्टेड ऑब्जेक्ट और सरणी कैसे बनाएं?
- 8. लकड़ी और विभाजन के साथ स्पार्क डेटाफ्रेम
- 9. अपाचे स्पार्क एचडीएफएस
- 10. लकड़ी त्रुटि स्पार्क
- 11. एक विशाल डस्क डेटाफ्रेम को लकड़ी की छत में सहेज रहा है?
- 12. अपनी खुद की निर्देशिका में व्यक्तिगत लकड़ी की छत फ़ाइलों को आरडीडी विभाजन लिखना
- 13. स्पार्क का उपयोग s3a से अधिक S3 के लिए एक छत फ़ाइल में लिखने का
- 14. एक फ़ाइल लिखने के लिए इस्तेमाल किया गया लकड़ी का संस्करण
- 15. हैडोप/एचडीएफएस फ़ाइल विभाजन के बारे में
- 16. स्ट्रीमिंग फ़ाइल के लिए स्पार्क में ड्रॉल्स
- 17. स्पार्क
- 18. स्पार्क में अधिक कुशलता से लोड लकड़ी की फाइलें कैसे करें (pySpark v1.2.0)
- 19. की बचत की छत को subpartition
- 20. स्पार्क का int96 समय प्रकार
- 21. स्पार्क-स्ट्रीमिंग संदर्भ में एचडीएफएस में एक आरडीडी लिखें
- 22. मैं `ssc.fileStream()` का उपयोग करके लकड़ी की फाइलों में कैसे पढ़ूं, और `ssc.fileStream()`
- 23. एक हडूप एचडीएफएस फ़ाइल
- 24. पायथन का उपयोग कर लकड़ी की फाइलें लिखने के तरीके?
- 25. स्पार्क
- 26. एचडीएफएस
- 27. एचडीएफएस
- 28. एचडीएफएस
- 29. पायथन में एक्सेल की तरह छत समारोह?
- 30. एचडीएफएस
धन्यवाद। बस पुष्टि करना चाहते हैं। ये तकनीकी रूप से .gz.parquet फ़ाइलें और parquet.gz फ़ाइलों नहीं होंगे, सही? यह सिर्फ माइक्रोसॉफ्ट पॉलीबेस जैसे उत्पादों को उत्पादक रूप से लकड़ी के प्रारूप में निर्यात करते समय .gz फ़ाइलों का उत्पादन करता है और मैंने अभी तक सत्यापित नहीं किया है कि यह फ़ाइल है जो स्वयं द्वारा संपीड़ित है या फ़ाइल भाग आंतरिक है। – YuGagarin
हां, वे 'gz.parquet' होना चाहिए। लकड़ी की छत के कार्यान्वयन द्वारा लकड़ी के अंदर संपीड़न किया जाना चाहिए। यदि आपके पास ऐसा उपकरण है जो पहले पैराक्वेट उत्पन्न करता है और फिर उन पर जीजेआईपी चलाता है, तो ये वास्तव में अमान्य लकड़ी की फाइलें हैं। लकड़ी के लिए यह आवश्यक है कि प्रारूप के कुछ हिस्सों को संपीड़ित नहीं किया गया है (उदा। हेडर)। ये भाग छोटे होते हैं (अक्सर एक या दो कीबी के आसपास) लेकिन उन्हें संपीड़ित करने से महत्वपूर्ण प्रदर्शन नुकसान होता है। – xhochy