2011-01-04 15 views
8


मेरे पास एक ऐसी स्थिति है जहां मेरे पास एकाधिक निर्देशिकाओं में संकुचित जीजे प्रारूप में एकाधिक (100 एमबी प्रत्येक 2-3) फ़ाइलें हैं। उदाहरण के लिए
ए 1/बी 1/सी 1/पार्ट-0000.gz
ए 2/बी 2/सी 2/पार्ट-0000.gz
ए 1/बी 1/सी 1/पार्ट-0001.gzहडोप जॉब कई निर्देशिकाओं से इनपुट फाइलें ले रहा है

मैं सभी को खिलाने के लिए है इन फ़ाइलों को एक मानचित्र नौकरी में। मैं जो देखता हूं, उससे एकाधिकफाइल इनपुट का उपयोग करने के लिए सभी इनपुट फ़ाइलों को एक ही निर्देशिका में होना आवश्यक है। क्या नौकरी में सीधे कई निर्देशिकाएं पारित करना संभव है?
यदि नहीं, तो क्या इन फ़ाइलों को एक नाम में बिना किसी समस्या के कुशलतापूर्वक डालना संभव है या इन फ़ाइलों को 1 सिंगल संपीड़ित gz फ़ाइल में विलय करना संभव है।
नोट: मैं मैपर को लागू करने के लिए सादा जावा का उपयोग कर रहा हूं और सुअर या हडूप स्ट्रीमिंग का उपयोग नहीं कर रहा हूं।

उपरोक्त मुद्दे से संबंधित किसी भी मदद की सराहना की जाएगी।
धन्यवाद,
अंकित

उत्तर

16

FileInputFormat.addInputPaths(),

FileInputFormat.addInputPaths("foo/file1.gz,bar/file2.gz") 
+0

हाँ की तरह एक से अधिक फ़ाइलों की अल्पविराम द्वारा अलग सूची ले जा सकते हैं, धन्यवाद है कि मैं वास्तव में क्या करना चाहता था। – Ankit

संबंधित मुद्दे