2009-06-01 5 views
5

मैं wget का उपयोग करके विकी का एक स्थिर दर्पण डाउनलोड करने का प्रयास कर रहा हूं। मैं केवल प्रत्येक आलेख का नवीनतम संस्करण चाहता हूं (पूर्ण इतिहास या संस्करणों के बीच भिन्नता नहीं)। पूरी चीज को डाउनलोड करना और बाद में अनावश्यक पृष्ठों को हटाना आसान होगा, लेकिन ऐसा करने में बहुत अधिक समय लगेगा और सर्वर पर अनावश्यक तनाव डालेगा।wget WIKI, diff पेज नहीं प्राप्त करें (regex द्वारा बहिष्कृत करें?)

जैसे पृष्ठों की एक संख्या मैं स्पष्ट रूप से की जरूरत नहीं है कर रहे हैं:

WhoIsDoingWhat कार्रवाई = diff & तारीख = 1184177979

वहाँ एक रास्ता wget बताने के लिए डाउनलोड करने और यूआरएल पर recurse के लिए नहीं है उनमें 'action = diff' है? या अन्यथा उन यूआरएल को बहिष्कृत करें जो कुछ रेगेक्स से मेल खाते हैं?

उत्तर

3
-R '*action=diff*,*action=edit*' 
+0

ऐसा लगता है कि यह पृष्ठ डाउनलोड करेगा, इसे अस्वीकार कर देगा, और फिर इसे हटा देगा (इसे पूरी तरह से डाउनलोड करने के बजाय छोड़ने के बजाय)। – stonea

+0

हालांकि यह अस्वीकृत पृष्ठ पर रिकर्सिंग को रोक देगा। – stonea

+0

मुझे इसका कोई सबूत नहीं दिखता है। "'--reject' विकल्प '--accept' जैसा ही काम करता है, केवल उसका तर्क रिवर्स है; Wget सूची में प्रत्यय (या पैटर्न) से मेल खाने वाले सभी को छोड़कर सभी फ़ाइलों को डाउनलोड करेगा"। (-R --reject और --rejlist जैसा ही है।) ऐसा लगता है कि यह स्पष्ट रूप से बता रहा है कि यह मिलान पैटर्न डाउनलोड नहीं करेगा। – chaos

संबंधित मुद्दे