2012-01-06 12 views
125

wget का उपयोग कैसे करें और वेबसाइट से सभी फाइलें प्राप्त करें?wget का उपयोग कर वेबसाइट से सभी फ़ाइलों (लेकिन HTML नहीं) को कैसे डाउनलोड करें?

मैं HTML, PHP, ASP आदि जैसे वेबपेज फ़ाइलों को छोड़कर सभी फाइलों की जरूरत

+0

आप php डाउनलोड करना चाहते यहां तक ​​कि अगर ध्यान नहीं देगा के लिए काम करता है, यह Wget का उपयोग कर संभव नहीं है। हम wget का उपयोग कर केवल कच्चे HTML प्राप्त कर सकते हैं। मुझे लगता है कि आपको कारण –

+0

** एनबी: ** हमेशा 'wget --spider' के साथ जांचें, और हमेशा' -w 1' (या अधिक '-w 5') जोड़ें ताकि आप दूसरे व्यक्ति के बाढ़ को बाढ़ न करें सर्वर। – isomorphismes

+0

मैं इस पृष्ठ में सभी पीडीएफ फाइलों को कैसे डाउनलोड कर सकता हूं? http://pualib.com/collection/pua-titles-a.html – Arturo

उत्तर

194

विशिष्ट फ़ाइल एक्सटेंशन के लिए फ़िल्टर करने के लिए

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/ 

इस साइट में दर्पण होगा, लेकिन बिना jpg या pdf एक्सटेंशन फ़ाइलें हो जाएगा स्वचालित रूप से हटा दिया गया। ,

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar 

विशिष्ट एक्सटेंशन स्वीकार करने के लिए:

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/ 
+7

में यदि आप पूरी निर्देशिका आर्किटेक्चर के बिना फ़ाइलों को डाउनलोड करना चाहते हैं, तो आप ** - nd ** विकल्प का उपयोग कर सकते हैं। – diabloneo

+1

प्रत्येक झंडे का क्या अर्थ है? – Michelle

+0

मुझे लगता है कि '--accept' केस-संवेदी है, इसलिए आपको '- स्वीकार करें पीडीएफ, जेपीजी, पीडीएफ, जेपीजी' – Flimm

62
wget -m -p -E -k -K -np http://site/path/ 

आदमी पेज आपको बता देंगे क्या उन विकल्पों से करते हैं।

wget सूचकांक पृष्ठ से फ़ाइल का कोई लिंक नहीं होने पर केवल लिंक का पालन करेगा, तो wget इसके अस्तित्व के बारे में नहीं पता होगा, और इसलिए इसे डाउनलोड नहीं किया जाएगा। अर्थात। यह मदद करता है अगर सभी फाइलें वेब पृष्ठों या निर्देशिका अनुक्रमणिका में लिंक हैं। अगर आप लंबे समय तक विकल्प के नाम पसंद करते हैं

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/ 

या,:

+0

उत्तर के लिए धन्यवाद :) यह पूरी साइट की प्रतिलिपि बनाता है और मुझे केवल फाइलों की आवश्यकता है (यानी txt, pdf , छवि इत्यादि) वेबसाइट – Aniruddhsinh

63

यह मेरे लिए पूरे वेबसाइट से डाउनलोड या केवल विशिष्ट एक्सटेंशन को अस्वीकार करने के लिए:

-R html,htm,asp,php 

या बाहर करने के लिए विशिष्ट क्षेत्रों:

-X "search*,forum*" 

फ़ाइलें रोबोट के लिए नजरअंदाज कर दिया जाता है (उदाहरण के -e robots=off

+14

+1! अंततः मेरी समस्या तय! :) धन्यवाद – NHDaly

+0

+1, वही किया जो मैं चाहता था। बिल्कुल सही दर्पण – Anon343224user

+5

'- यादृच्छिक-प्रतीक्षा' विकल्प प्रतिभा है;) – poitroae

6

आप कोशिश कर सकते हैं:

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/ 

इसके अलावा, आप जोड़ सकते हैं

2

विंडोज सिस्टम पर प्राप्त करने के लिए आदेश में wget आप

  1. डाउनलोड Cygwin
  2. डाउनलोड GnuWin32
15

मैं डाउनलोड करने के लिए कोशिश कर रहा था हो सकता है: खोज इंजन), आप भी जोड़ने के लिए है Omeka's themes page से जुड़ी ज़िप फ़ाइलें - बहुत समान कार्य।यह मेरे लिए काम किया:

wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/ 
  • -A: केवल ज़िप फ़ाइलों को स्वीकार
  • -r: recurse
  • -l 1: एक स्तर गहरी (यानी, केवल सीधे इस पृष्ठ से लिंक की गई फ़ाइलों)
  • -nd: निर्देशिका संरचना न बनाएं, बस इस निर्देशिका में सभी फाइलें डाउनलोड करें।

सभी के साथ जवाब -k, -K, -E आदि विकल्पों शायद वास्तव में सवाल है, समझ नहीं किया है HTML पृष्ठों को फिर से लिखने के लिए एक स्थानीय संरचना बनाने के लिए के लिए के रूप में उन लोगों के रूप .php फ़ाइलें और इतने पर नाम बदलने। संबद्ध नहीं।

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com 
+1

'-A' केस-संवेदी है, मुझे लगता है, तो आपको '-A ज़िप, ज़िप' करना होगा – Flimm

4

इस प्रयास करें:

सचमुच सभी फाइलों छोड़कर.html आदि प्राप्त करने के लिए। यह हमेशा मुझे

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL 
2
wget -m -A * -pk -e robots=off www.mysite.com/ 

इस html फ़ाइल से उन्हें स्थानीय स्तर पर फ़ाइलों के सभी प्रकार के और बिंदु डाउनलोड हो जाएगा और यह रोबोट फ़ाइल

संबंधित मुद्दे