मैं कुछ दिनों के लिए हाइव के साथ खेल रहा हूं लेकिन मुझे अभी भी विभाजन के साथ कठिन समय है।मैं एक तालिका को HIVE के साथ कैसे विभाजित कर सकता हूं?
मैं कुछ महीनों के लिए हैडोप में अपाचे लॉग (संयोजन प्रारूप) रिकॉर्ड कर रहा हूं। वे पंक्ति पाठ प्रारूप में जमा हो जाती है, तारीख (Flume के माध्यम से) द्वारा विभाजित: /लॉग/yyyy/mm/dd/hh/*
उदाहरण:
/logs/2012/02/10/00/Part01xx (02/10/2012 12:00 am)
/logs/2012/02/10/00/Part02xx
/logs/2012/02/10/13/Part0xxx (02/10/2012 01:00 pm)
combined log फ़ाइल में तारीख पीछा कर रहा है यह प्रारूप [10/फरवरी/2012: 00: 00: 00 -0800]
मैं अपने भौतिक विभाजन का उपयोग करने वाले हाइव में विभाजन के साथ बाहरी तालिका कैसे बना सकता हूं। मुझे हाइव विभाजन पर कोई अच्छा दस्तावेज नहीं मिल रहा है। मैंने पाया संबंधित प्रश्न जैसे:
मैं हाइव के साथ एक बाहरी तालिका में अपने लॉग लोड है, मैं समय के साथ विभाजन नहीं कर सकते हैं, यह अच्छा प्रारूप नहीं है के बाद से (फरवरी < => 02)। भले ही यह एक अच्छे प्रारूप में था, मैं एक निर्देशिका "10/02/2012: 00: 00: 00 -0800" को एकाधिक निर्देशिका "/ 2012/02/10/00" में कैसे बदलूं?
मैं अंततः अपने कच्चे लॉग को हाइव टेबल में बदलने के लिए सुअर स्क्रिप्ट का उपयोग कर सकता हूं लेकिन इस बिंदु पर मुझे अपनी रिपोर्टिंग करने के लिए सिर्फ छिद्र का उपयोग करना चाहिए।
तो क्या मैं तालिका का निर्माण दिखता हूं? और मैं उन विभाजनों का उपयोग करने के लिए एक प्रश्न पूछूंगा? – zzarbi
उत्तर में मेरे संपादन देखें। – Olaf
मुझे यह जांचना होगा कि जैसे ही मैं – zzarbi