8

मैं अपेक्षाकृत अद्यतित स्थिर HTML फ़ाइलों को प्राप्त करने में सक्षम होना चाहता हूं (यहां तक ​​कि जब संकुचित) अंग्रेजी विकिपीडिया एक्सएमएल डंप फ़ाइल enwiki-latest-pages-articles.xml.bz2 मैंने WikiMedia dump page से डाउनलोड किया है। ऐसा लगता है कि बहुत सारे टूल्स उपलब्ध हैं, हालांकि उन पर प्रलेखन बहुत कम है, इसलिए मुझे नहीं पता कि उनमें से अधिकतर क्या करते हैं या यदि वे नवीनतम डंप के साथ अद्यतित हैं। (मैं वेब क्रॉलर बनाने में काफी अच्छा हूं जो अपेक्षाकृत छोटे HTML पृष्ठों/फ़ाइलों के माध्यम से क्रॉल कर सकते हैं, हालांकि मैं SQL और XML के साथ भयानक हूं, और मुझे कम से कम एक वर्ष के लिए बहुत अच्छा होने की उम्मीद नहीं है।) मैं ऑनलाइन विकिपीडिया को क्रॉल करने के बिना ऑफ़लाइन डंप से प्राप्त HTML फ़ाइलों के माध्यम से क्रॉल करने में सक्षम होना चाहता हूं।विकिपीडिया से स्थिर HTML फ़ाइलों को प्राप्त करना XML डंप

क्या किसी को हाल ही में विकिपीडिया एक्सएमएल डंप से स्थिर HTML फ़ाइलों को प्राप्त करने के लिए एक अच्छा टूल पता है?

उत्तर

3

पहला, import the data। फिर DumpHTML के साथ HTML फ़ाइलें बनाएं। यद्यपि सिद्धांत में सरल, यह प्रक्रिया शामिल डेटा की मात्रा और डंप HTML को थोड़ा उपेक्षित होने के कारण अभ्यास में जटिल हो सकती है, इसलिए ask for help में संकोच न करें।

+1

इसके अलावा, इसमें सप्ताह या महीने लग सकते हैं। मैं कई साल पहले विकिपीडिया डंप आयात करता था, जो कि परिमाण के कई आदेश थे, और इसमें कई दिन लग गए। एक बहुत मधुर मशीन पर यह करने में मदद मिलेगी। मुझे आश्चर्य है कि कोई हमें बता सकता है कि उन्हें आयात करने में कितना समय लगेगा। – hippietrail

+0

प्रसंस्करण समय निश्चित रूप से एक विचार होगा। मैं किसी बिंदु पर एक मधुर डेस्कटॉप मशीन प्राप्त करने में सक्षम हो सकता हूं, हालांकि मुझे नहीं पता कि वह उस पैमाने से निपटने के लिए पर्याप्त होगा जो हम यहां बात कर रहे हैं। (मुझे आश्चर्य है कि एक समानांतर समाधान है।) मुझे पता है कि स्थिर HTML डंप उपलब्ध हैं, हालांकि सबसे हालिया 2008 से है, जो आदर्श से बहुत कम है। –

+0

ऑफ़लाइन कस्टम उबंटू डिस्ट्रो के साथ बंडल की गई स्क्रिप्ट के हिस्से के रूप में किसी दिए गए पृष्ठ को प्रस्तुत करने के लिए आवश्यक हिस्सों को गतिशील रूप से प्रस्तुत करने के बारे में क्या? @hippietrail –

संबंधित मुद्दे