2011-07-17 6 views
6

मैं Hadoop मानचित्र विकिपीडिया डेटा पर अनुसंधान करने के लिए कम प्रयोग पर काम कर रहा हूँ उदासीनता (BZ2 प्रारूप में संकुचित)। चूंकि ये डंप इतने बड़े (5 टी) हैं, इसलिए मैं एक्सएमएल डेटा को एचडीएफएस में डिकंप्रेस नहीं कर सकता हूं और केवल StreamXmlRecordReader का उपयोग कर सकता हूं जो हैडऑप प्रदान करता है। हैडोप बीजी 2 फाइलों को असंपीड़ित करने का समर्थन करता है, लेकिन यह पृष्ठों को मनमाने ढंग से विभाजित करता है और उन्हें मैपर में भेजता है। चूंकि यह एक्सएमएल है, इसलिए हमें एक टैग होने के लिए विभाजन की आवश्यकता है। क्या बीएस 2 डीकंप्रेशन और स्ट्रीम एक्सएमएल रिकॉर्ड रीडर का उपयोग करने के लिए वैसे भी हैडूप द्वारा प्रदान किया गया है?कैसे संकुचित BZ2 पढ़ने के लिए (bzip2) विकिपीडिया Hadoop नक्शे के लिए धारा एक्सएमएल रिकॉर्ड रीडर में उदासीनता को कम

+0

तुम क्यों टैग द्वारा पृष्ठों विभाजित करने की आवश्यकता है: स्रोत कोड पर उपलब्ध है? – svick

+0

हम उन्हें टैग द्वारा विभाजित अजगर में एक पार्सर उपयोग करने के लिए डेटा हम विश्लेषण करने की जरूरत प्राप्त करने में सक्षम होना चाहता हूँ (हम पिछले संशोधन और सभी पृष्ठों के पाठ पर विश्लेषण के विभिन्न प्रकार के कर रही होगी)। –

+0

टैग्स द्वारा विभाजित करना संभव नहीं होगा क्योंकि 100 जीबी से अधिक लंबे पेज हैं। हमारे द्वारा अभी जारी किए गए इनपुट रीडर के बारे में मेरा पूरा उत्तर देखें। – DrDee

उत्तर

0

आपकी समस्या here के जैसा ही है। तो मेरा जवाब वही है, आपको TextInputFormat पर अपनी खुद की विविधता बनाना चाहिए। वहां आप एक नया रिकॉर्ड रीडर बनाते हैं जो लाइनों को तब तक छोड़ देता है जब तक कि यह लॉजिकल लाइन की शुरुआत को न देखे।

7

विकीमीडिया फाउंडेशन ने हडोप स्ट्रीमिंग इंटरफ़ेस के लिए एक इनपुट रीडर जारी किया जो bz2 संपीड़ित पूर्ण डंप फ़ाइलों को पढ़ने में सक्षम है और इसे आपके मैपर्स को भेज सकता है। एक मैपर को भेजी जाने वाली इकाई एक संपूर्ण पृष्ठ नहीं है लेकिन दो संशोधन (इसलिए आप वास्तव में दो संशोधनों पर एक अंतर चला सकते हैं)। यह प्रारंभिक रिलीज है और मुझे यकीन है कि कुछ बग्स होंगी लेकिन कृपया इसे स्पिन दें और इसका परीक्षण करने में हमारी सहायता करें।

इस इनपुट रीडर को हैडोप 0.21 की आवश्यकता है क्योंकि हैडोप 0.21 में bz2 फ़ाइलों के लिए स्ट्रीमिंग समर्थन है। https://github.com/whym/wikihadoop

संबंधित मुद्दे