पर एक टैरबॉल लोड करने के लिए कैसे करें मेरे पास एक लॉग फ़ाइल है जो मेरे हैडूप क्लस्टर में लोड टैरबॉल (access.logs.tar.gz) में है। मैं सोच रहा था कि इसे सीधे छेड़छाड़ के साथ इसे लोड करने का तरीका है?डुबकी
डुबकी
उत्तर
पिगस्टोरस फ़ाइल को संकुचित करेगा (.gz एक्सटेंशन द्वारा, यह वास्तव में TextInputFormat में लागू किया गया है जो PigTextInputFormat विस्तारित करता है), लेकिन उसके बाद आप एक टैर फ़ाइल से निपटेंगे। यदि आप टैर में फ़ाइलों के बीच हेडर लाइनों को संभालने में सक्षम हैं तो आप केवल पिगस्टॉरेज का उपयोग कर सकते हैं, अन्यथा आपको प्रत्येक फ़ाइल
के बीच टैर हेडर लाइनों को अलग करने के लिए PigTextInputFormat का अपना एक्सटेंशन लिखना होगा।@ क्रिसवाइट का जवाब तकनीकी रूप से सही है और आपको मेरा जवाब (कम से कम आईएमओ) के बजाय अपना जवाब स्वीकार करना चाहिए।
आपको हडोप के साथ tar.gz
फ़ाइलों से दूर जाने की आवश्यकता है। Gzip फ़ाइलें विभाजित नहीं हैं, इसलिए आप स्थिति में आते हैं जहां आपकी gzip फ़ाइलें बड़ी हैं, तो आप अपने मैपर्स में हॉटस्पॉटिंग देखने जा रहे हैं। उदाहरण के लिए, यदि आपके पास .tar.gz
फ़ाइल है जो 100 जीबी है, तो आप गणना को विभाजित करने में सक्षम नहीं होंगे।
चलिए दूसरी तरफ कहते हैं कि वे छोटे हैं। इस मामले में, सुअर उन्हें एक साथ इकट्ठा करने का अच्छा काम करेगा और विभाजन की समस्या दूर हो जाएगी। इस तथ्य का नकारात्मक पक्ष है कि अब आप नाम नोड के साथ कई छोटी फाइलों से निपट रहे हैं। साथ ही, चूंकि फाइलें छोटी हैं, इसलिए फ़ाइलों को एक और उचित प्रारूप में सुधारने के लिए अपेक्षाकृत सस्ते कम्प्यूटेशनल होना चाहिए।
तो आप फ़ाइलों को किस प्रारूप में सुधारना चाहिए? अच्छा प्रश्न!
- बस उन सब को एक बड़ी ब्लॉक स्तर संकुचित अनुक्रम फ़ाइल में श्रृंखलाबद्ध सबसे चुनौतीपूर्ण लेकिन प्रदर्शन के मामले में सबसे ज्यादा फायदेमंद हो सकता है।
- दूसरा संपीड़न पूरी तरह से अनदेखा करना है और केवल उन फ़ाइलों को विस्फोट करना है, या कम से कम को संयोजित करना (आप संपीड़न के बिना प्रदर्शन हिट देखते हैं)।
- अंत में, आप ~ 100MB भाग में फ़ाइलों को ब्लॉब कर सकते हैं और फिर उन्हें gzip कर सकते हैं।
मुझे लगता है कि कुछ प्रकार के टैरबॉल लोडर को पिगबीबैंक में लिखना पूरी तरह से उचित होगा, लेकिन मैं व्यक्तिगत रूप से डेटा को अलग-अलग रखता हूं।
- 1. डुबकी के बिना UISearchDisplayController?
- 2. डीपी डुबकी के समान है?
- 3. डुबकी इकाई नहीं पिक्सल इकाई
- 4. LinearLayout.LayoutParams डुबकी का उपयोग कैसे करें ...?
- 5. स्वैप फ़ाइल में डुबकी से भारी प्रक्रिया को रोकना
- 6. डुबकी में एचडीएफएस को स्टोर (ओवरराइट) कैसे मजबूर करें?
- 7. एंड्रॉइड: कोड में डुबकी (घनत्व स्वतंत्र पिक्सेल) का उपयोग कैसे करें?
- 8. कैसे एंड्रॉयड
- 9. सटीक उसी मान में पिक्सेल रूपांतरण परिणामों को डुबोएं
- 10. क्या कोई मानक बटन आकार है?
- 11. एंड्रॉइड -
- 12. एंड्रॉइड
- 13. एंड्रॉइड के बीच क्या अंतर है: लेआउट_विड्थ और एंड्रॉइड: चौड़ाई
- 14. कोई कैसे पता लगाता है कि विंडोज सेवा (अधिमानतः) केवल बैच का उपयोग करके स्थापित की जाती है?
- 15. डबली लिंक्ड सूची से डुप्लिकेट हटाएं
- 16. संबंध
- 17. क्या Jquery/MooTools/प्रोटोटाइप ने जीडब्ल्यूटी की आवश्यकता को समाप्त कर दिया है?
- 18. रूबी प्रोग्रामर को पायथन लेने के लिए सबसे तेज़ तरीका क्या है?
- 19. जावा स्ट्रिंग प्रतिस्थापित और एनयूएल (न्यूल, ASCII 0) चरित्र?
- 20. सी # और एसएमओ का उपयोग करके, मैं SQL सर्वर में बैकअप डिवाइस कैसे जोड़ूं?
- 21. आईफोन 5 और उसके नीचे किसी भी आईओएस डिवाइस का पता लगाने
- 22. StretchDIBits धीमा लगता है, क्या कोई एपीआई तेज है?
- 23. बहु थ्रेडेड क्लासलोडिंग संभव है?
- 24. क्या कोई मुझे कुछ बुनियादी एक्सएसएस और एसक्यूएल इंजेक्शन स्क्रिप्ट दे सकता है? (ऐसा नहीं लगता है)
- 25. स्रोत कोड से res/values / dimension.xml से लोड आयाम मान
- 26. कई कॉलम पर LINQ COUNT
- 27. जावा कोड से डीआईपी में आयाम निर्दिष्ट करने का सही तरीका क्या है?
- 28. एमएसबिल्ड कॉपी कमांड की वर्बोसिटी
- 29. पायथन में गोता लगाने के बाद क्या?
- 30. कैसे एक बटन के पैरामीटर सेट करने के लिए प्रोग्राम के