मेरे पास एक बहुत ही भारी लकड़ी की छत फ़ाइल है जहां मुझे कॉलम में से किसी एक के लिए मूल्यों को बदलने की आवश्यकता है। ऐसा करने का एक तरीका स्रोत टेक्स्ट फ़ाइलों में उन मानों को अपडेट करना और लकड़ी की छत फ़ाइल को फिर से बनाना होगा, लेकिन मुझे आश्चर्य है कि इसमें कम महंगा और समग्र आसान समाधान है या नहीं।अपाचे पैराक्वेट फ़ाइल में मानों को अपडेट करना
उत्तर
मूल बातें
- लकड़ी एक fileformat अगर साथ शुरू की सुविधा देता है, लेकिन एक फाइल सिस्टम में बचाया जाना चाहिए।
- क्या लकड़ी का समर्थन संलग्न करता है। ?
- क्या फ़ाइल सिस्टम (एचडीएफएस) फ़ाइल पर संलग्न होने की अनुमति देता है।
- यहां तक कि अगर सभी सही हैं करता है काम फ्रेमवर्क (स्पार्क)
जवाब संलग्न संभाल करने में सक्षम है:
लकड़ी: parquet.hadoop.ParquetFileWriter केवल बनाएं और अधिलेखित का समर्थन करता है, लेकिन कोई संलग्न मोड। (सुनिश्चित नहीं हैं, लेकिन यह अन्य कार्यान्वयन में बदल सकते हैं, लकड़ी के डिजाइन समर्थन जोड़ देता है)
HDFS HDFS (dfs.support.append संपत्ति) का उपयोग कर फाइलों पर संलग्न
स्पार्क ढांचा मौजूदा से अटैचमेंट का समर्थन नहीं करता की अनुमति देता है लकड़ी की छत फाइलें।
http://bytepadding.com/big-data/spark/read-write-parquet-files-using-spark/
http://bytepadding.com/linux/understanding-basics-of-filesystem/
के माध्यम से जाने के लिए कृपया एक विस्तृत समझ के लिए।
धन्यवाद। यह सहायक है – Keith
आपको फ़ाइल को फिर से बनाना होगा, यह हैडोप तरीका है। विशेष रूप से अगर फ़ाइल संपीड़ित है।
एक और दृष्टिकोण, (बिग-डेटा में बहुत आम), एक और पैराक्वेट (या ओआरसी) फ़ाइल पर अद्यतन करना है, फिर क्वेरी समय पर जॉइन/यूनियन।
- 1. पैराक्वेट में सूचकांक
- 2. पांडस डेटाफ्रेम में एक पैराक्वेट फ़ाइल कैसे पढ़ा जाए?
- 3. अरवो, क्रायो और पैराक्वेट
- 4. सीएसवी फ़ाइल को आर-न्यूमेरिक मानों में आयात करना
- 5. Meteor.users को अपडेट करना
- 6. Azure - BLOB स्टोरेज में मौजूदा xml फ़ाइल को अपडेट करना
- 7. कोणीय जेएस में ng-repeat मानों को कैसे अपडेट करें?
- 8. डेटाबेस में enum मानों को संग्रहीत करना
- 9. पोस्टग्रेज़: कॉलम में सभी मानों को एक से अपडेट करें?
- 10. एसवीएन में फ़ाइल को कैसे अपडेट करें?
- 11. MySQL में लाखों पंक्तियों को अपडेट करना -
- 12. कमांड लाइन से पैराक्वेट का निरीक्षण करें
- 13. एएसपी.Net 5 में Azure वेब ऐप में config.json फ़ाइल में कॉन्फ़िगरेशन मानों को ओवरराइड करना
- 14. मॉडल गुणों को अपडेट करना
- 15. जेडीओ - ऑब्जेक्ट को अपडेट करना
- 16. अपाचे वर्चुअल होस्ट फ़ाइल
- 17. केवल संशोधित मानों को कैसे अपडेट करें (EntityFramework 5.0)?
- 18. उपयोगकर्ता समूह फ़ाइल अपलोड अपाचे में अपाचे जोड़ना
- 19. अपाचे सीएक्सएफ, डब्ल्यूएसडीएल फ़ाइल
- 20. जावास्क्रिप्ट कार्यों में एचटीएमएल मानों को पास करना
- 21. अपाचे पीओआई एचडब्ल्यूपीएफ - डॉक फ़ाइल को पीडीएफ
- 22. रीयलटाइम में यूआई अपडेट करना
- 23. जीएसी डीएलएस अपडेट करना
- 24. फ़ंक्शन में पॉइंटर्स अपडेट करना
- 25. अपाचे निफी एक्सेक्यूटस्क्रिप्ट: मैपिंग फ़ाइल
- 26. एक डेटा फ़ाइल में अद्वितीय मानों को ढूँढने
- 27. एंड्रॉइड ओरेओ अपडेट में छवि फ़ाइल को सहेजने में असमर्थ। यह कैसे करना है?
- 28. फ़ाइल में अपाचे एंटी प्रॉपर्टी वैल्यू को कैसे स्टोर करें
- 29. बाइनरी मैट्रिक्स मानों में आर फैक्टरों को कनवर्ट करना
- 30. प्रतिशत सीएसएस मानों को पुनर्प्राप्त करना (फ़ायरफ़ॉक्स में)
नहीं। आपको फ़ाइल को फिर से बनाना होगा। –
@DanOsipov धन्यवाद। मुझे लगता है कि यह सीमा विभिन्न संपीड़न एल्गोरिदम के कारण होती है जहां कॉलम मान अपडेट करने के लिए यह आसान या संभव नहीं होगा। –
मैं कहूंगा, यह एक लकड़ी के विशिष्ट प्रश्न के बजाय, एक और अधिक मौलिक सवाल है। उच्च डेटा वॉल्यूम की दुनिया में, जहां लकड़ी की छत का उपयोग किया जाता है, अपरिवर्तनीयता ऐसी चीज है जिसे आप परवाह करना चाहते हैं। इस परिप्रेक्ष्य से आप डेटा लोड करना चाहते हैं, इसे बदलना चाहते हैं, और फिर इसे फिर से लिखना चाहते हैं। आप केवल उन स्तंभों को लिखने पर विचार कर सकते हैं जिन्हें आपको चाहिए, जो इसे अधिक कुशल बनाता है क्योंकि यह एक स्तंभबद्ध प्रारूप है। विस्तृत उत्तर और पृष्ठभूमि जानकारी के लिए –