विकिपीडिया से स्थिर HTML फ़ाइलों को प्राप्त करना XML डंप

मैं अपेक्षाकृत अद्यतित स्थिर HTML फ़ाइलों को प्राप्त करने में सक्षम होना चाहता हूं (यहां तक कि जब संकुचित) अंग्रेजी विकिपीडिया एक्सएमएल डंप फ़ाइल enwiki-latest-pages-articles.xml.bz2 मैंने WikiMedia dump page से डाउनलोड किया है। ऐसा लगता है कि बहुत सारे टूल्स उपलब्ध हैं, हालांकि उन पर प्रलेखन बहुत कम है, इसलिए मुझे नहीं पता कि उनमें से अधिकतर क्या करते हैं या यदि वे नवीनतम डंप के साथ अद्यतित हैं। (मैं वेब क्रॉलर बनाने में काफी अच्छा हूं जो अपेक्षाकृत छोटे HTML पृष्ठों/फ़ाइलों के माध्यम से क्रॉल कर सकते हैं, हालांकि मैं SQL और XML के साथ भयानक हूं, और मुझे कम से कम एक वर्ष के लिए बहुत अच्छा होने की उम्मीद नहीं है।) मैं ऑनलाइन विकिपीडिया को क्रॉल करने के बिना ऑफ़लाइन डंप से प्राप्त HTML फ़ाइलों के माध्यम से क्रॉल करने में सक्षम होना चाहता हूं।विकिपीडिया से स्थिर HTML फ़ाइलों को प्राप्त करना XML डंप

क्या किसी को हाल ही में विकिपीडिया एक्सएमएल डंप से स्थिर HTML फ़ाइलों को प्राप्त करने के लिए एक अच्छा टूल पता है?

स्रोत

2012-05-23 Brian Schmitz

पहला, import the data। फिर DumpHTML के साथ HTML फ़ाइलें बनाएं। यद्यपि सिद्धांत में सरल, यह प्रक्रिया शामिल डेटा की मात्रा और डंप HTML को थोड़ा उपेक्षित होने के कारण अभ्यास में जटिल हो सकती है, इसलिए ask for help में संकोच न करें।

स्रोत

2012-05-23 07:21:16 MaxSem

इसके अलावा, इसमें सप्ताह या महीने लग सकते हैं। मैं कई साल पहले विकिपीडिया डंप आयात करता था, जो कि परिमाण के कई आदेश थे, और इसमें कई दिन लग गए। एक बहुत मधुर मशीन पर यह करने में मदद मिलेगी। मुझे आश्चर्य है कि कोई हमें बता सकता है कि उन्हें आयात करने में कितना समय लगेगा। – hippietrail

प्रसंस्करण समय निश्चित रूप से एक विचार होगा। मैं किसी बिंदु पर एक मधुर डेस्कटॉप मशीन प्राप्त करने में सक्षम हो सकता हूं, हालांकि मुझे नहीं पता कि वह उस पैमाने से निपटने के लिए पर्याप्त होगा जो हम यहां बात कर रहे हैं। (मुझे आश्चर्य है कि एक समानांतर समाधान है।) मुझे पता है कि स्थिर HTML डंप उपलब्ध हैं, हालांकि सबसे हालिया 2008 से है, जो आदर्श से बहुत कम है। –

ऑफ़लाइन कस्टम उबंटू डिस्ट्रो के साथ बंडल की गई स्क्रिप्ट के हिस्से के रूप में किसी दिए गए पृष्ठ को प्रस्तुत करने के लिए आवश्यक हिस्सों को गतिशील रूप से प्रस्तुत करने के बारे में क्या? @hippietrail –

विकिपीडिया से स्थिर HTML फ़ाइलों को प्राप्त करना XML डंप

उत्तर

संबंधित मुद्दे