मैं Hadoop मानचित्र विकिपीडिया डेटा पर अनुसंधान करने के लिए कम प्रयोग पर काम कर रहा हूँ उदासीनता (BZ2 प्रारूप में संकुचित)। चूंकि ये डंप इतने बड़े (5 टी) हैं, इसलिए मैं एक्सएमएल डेटा को एचडीएफएस में डिकंप्रेस नहीं कर सकता हूं और केवल StreamXmlRecordReader का उपयोग कर सकता हूं जो हैडऑप प्रदान करता है। हैडोप बीजी 2 फाइलों को असंपीड़ित करने का समर्थन करता है, लेकिन यह पृष्ठों को मनमाने ढंग से विभाजित करता है और उन्हें मैपर में भेजता है। चूंकि यह एक्सएमएल है, इसलिए हमें एक टैग होने के लिए विभाजन की आवश्यकता है। क्या बीएस 2 डीकंप्रेशन और स्ट्रीम एक्सएमएल रिकॉर्ड रीडर का उपयोग करने के लिए वैसे भी हैडूप द्वारा प्रदान किया गया है?कैसे संकुचित BZ2 पढ़ने के लिए (bzip2) विकिपीडिया Hadoop नक्शे के लिए धारा एक्सएमएल रिकॉर्ड रीडर में उदासीनता को कम
उत्तर
आपकी समस्या here के जैसा ही है। तो मेरा जवाब वही है, आपको TextInputFormat पर अपनी खुद की विविधता बनाना चाहिए। वहां आप एक नया रिकॉर्ड रीडर बनाते हैं जो लाइनों को तब तक छोड़ देता है जब तक कि यह लॉजिकल लाइन की शुरुआत को न देखे।
विकीमीडिया फाउंडेशन ने हडोप स्ट्रीमिंग इंटरफ़ेस के लिए एक इनपुट रीडर जारी किया जो bz2 संपीड़ित पूर्ण डंप फ़ाइलों को पढ़ने में सक्षम है और इसे आपके मैपर्स को भेज सकता है। एक मैपर को भेजी जाने वाली इकाई एक संपूर्ण पृष्ठ नहीं है लेकिन दो संशोधन (इसलिए आप वास्तव में दो संशोधनों पर एक अंतर चला सकते हैं)। यह प्रारंभिक रिलीज है और मुझे यकीन है कि कुछ बग्स होंगी लेकिन कृपया इसे स्पिन दें और इसका परीक्षण करने में हमारी सहायता करें।
इस इनपुट रीडर को हैडोप 0.21 की आवश्यकता है क्योंकि हैडोप 0.21 में bz2 फ़ाइलों के लिए स्ट्रीमिंग समर्थन है। https://github.com/whym/wikihadoop
- 1. गणना/सत्यापित करें BZ2 (bzip2) CRC32 अजगर
- 2. Hadoop में पाठ से CustomWritable पार्स करने के लिए कैसे
- 3. एंड्रॉइड - एपब रीडर पढ़ने के लिए .epub फ़ाइलें ..
- 4. एक्सएमएल फ़ाइल पढ़ने के लिए ईएमएफ का उपयोग कैसे करें?
- 5. एक्सएमएल पढ़ने में सुधार कैसे करें पढ़ने के प्रदर्शन
- 6. bz2 फ़ाइलें संपीड़न प्रश्न
- 7. अलग एक से अधिक क्षेत्र MongoDB के नक्शे को कम
- 8. कैसे जोड़ने के लिए/एक्सएमएल
- 9. विकिपीडिया पृष्ठ करने के लिए पेज pageid से लिंक
- 10. कैसे HDFS Hadoop में blockName से फ़ाइल खोजने के लिए
- 11. किसी ऑब्जेक्ट को रिकॉर्ड करने के लिए कैसे रिकॉर्ड करें?
- 12. बाइनरी रीडर के लिए एंडऑफस्ट्रीम
- 13. जावा के स्ट्रिंग रीडर के लिए रूबी समतुल्य क्या है?
- 14. एक्सएमएल नोड मान के आधार पर रिकॉर्ड में एक्सएमएल अपडेट करने के लिए एसक्यूएल अपडेट क्वेरी?
- 15. Hazelcast में नक्शे के लिए प्रोग्रामेटिक संपत्ति सेटिंग?
- 16. ग # कैसे xml पढ़ने के लिए XElement
- 17. एक्सएमएल रीडर क्लास
- 18. नक्शे में चिह्नित स्थानों की सूची देखने के लिए कैसे?
- 19. मोबाइल उपकरणों के लिए आरएफआईडी रीडर
- 20. पीएल/एसक्यूएल डेवलपर के लिए संकुचित क्षेत्र
- 21. Google नक्शे ओवरले के लिए माउस कर्सर
- 22. एक धारा के आउटपुट को
- 23. क्या JPEG फ़ाइलों को पढ़ने के लिए ImageIO के लिए 100% जावा विकल्प है?
- 24. Winforms में Combobox को पढ़ने के लिए कैसे पढ़ें
- 25. स्प्रेडशीट में केवल कोशिकाओं को पढ़ने के लिए कैसे करें?
- 26. varqhar (अधिकतम) के लिए क्या SqlDbType नक्शे?
- 27. Google नक्शे के लिए सेलेनियम परीक्षण
- 28. डेल्फी में सूचीदृश्य में पढ़ने और लिखने के लिए कैसे?
- 29. सी # फ़ाइल को पढ़ने बनाते हैं/केवल पढ़ने के लिए
- 30. नामस्थान के लिए एक्सएमएल-प्रलेखन
तुम क्यों टैग द्वारा पृष्ठों विभाजित करने की आवश्यकता है: स्रोत कोड पर उपलब्ध है? – svick
हम उन्हें टैग द्वारा विभाजित अजगर में एक पार्सर उपयोग करने के लिए डेटा हम विश्लेषण करने की जरूरत प्राप्त करने में सक्षम होना चाहता हूँ (हम पिछले संशोधन और सभी पृष्ठों के पाठ पर विश्लेषण के विभिन्न प्रकार के कर रही होगी)। –