wget
का उपयोग कैसे करें और वेबसाइट से सभी फाइलें प्राप्त करें?wget का उपयोग कर वेबसाइट से सभी फ़ाइलों (लेकिन HTML नहीं) को कैसे डाउनलोड करें?
मैं HTML, PHP, ASP आदि जैसे वेबपेज फ़ाइलों को छोड़कर सभी फाइलों की जरूरत
wget
का उपयोग कैसे करें और वेबसाइट से सभी फाइलें प्राप्त करें?wget का उपयोग कर वेबसाइट से सभी फ़ाइलों (लेकिन HTML नहीं) को कैसे डाउनलोड करें?
मैं HTML, PHP, ASP आदि जैसे वेबपेज फ़ाइलों को छोड़कर सभी फाइलों की जरूरत
विशिष्ट फ़ाइल एक्सटेंशन के लिए फ़िल्टर करने के लिए
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
इस साइट में दर्पण होगा, लेकिन बिना jpg
या pdf
एक्सटेंशन फ़ाइलें हो जाएगा स्वचालित रूप से हटा दिया गया। ,
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
विशिष्ट एक्सटेंशन स्वीकार करने के लिए:
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
wget -m -p -E -k -K -np http://site/path/
आदमी पेज आपको बता देंगे क्या उन विकल्पों से करते हैं।
wget
सूचकांक पृष्ठ से फ़ाइल का कोई लिंक नहीं होने पर केवल लिंक का पालन करेगा, तो wget
इसके अस्तित्व के बारे में नहीं पता होगा, और इसलिए इसे डाउनलोड नहीं किया जाएगा। अर्थात। यह मदद करता है अगर सभी फाइलें वेब पृष्ठों या निर्देशिका अनुक्रमणिका में लिंक हैं। अगर आप लंबे समय तक विकल्प के नाम पसंद करते हैं
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
या,:
उत्तर के लिए धन्यवाद :) यह पूरी साइट की प्रतिलिपि बनाता है और मुझे केवल फाइलों की आवश्यकता है (यानी txt, pdf , छवि इत्यादि) वेबसाइट – Aniruddhsinh
यह मेरे लिए पूरे वेबसाइट से डाउनलोड या केवल विशिष्ट एक्सटेंशन को अस्वीकार करने के लिए:
-R html,htm,asp,php
या बाहर करने के लिए विशिष्ट क्षेत्रों:
-X "search*,forum*"
फ़ाइलें रोबोट के लिए नजरअंदाज कर दिया जाता है (उदाहरण के -e robots=off
+1! अंततः मेरी समस्या तय! :) धन्यवाद – NHDaly
+1, वही किया जो मैं चाहता था। बिल्कुल सही दर्पण – Anon343224user
'- यादृच्छिक-प्रतीक्षा' विकल्प प्रतिभा है;) – poitroae
आप कोशिश कर सकते हैं:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
इसके अलावा, आप जोड़ सकते हैं
मैं डाउनलोड करने के लिए कोशिश कर रहा था हो सकता है: खोज इंजन), आप भी जोड़ने के लिए है Omeka's themes page से जुड़ी ज़िप फ़ाइलें - बहुत समान कार्य।यह मेरे लिए काम किया:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A
: केवल ज़िप फ़ाइलों को स्वीकार-r
: recurse-l 1
: एक स्तर गहरी (यानी, केवल सीधे इस पृष्ठ से लिंक की गई फ़ाइलों)-nd
: निर्देशिका संरचना न बनाएं, बस इस निर्देशिका में सभी फाइलें डाउनलोड करें।सभी के साथ जवाब -k
, -K
, -E
आदि विकल्पों शायद वास्तव में सवाल है, समझ नहीं किया है HTML पृष्ठों को फिर से लिखने के लिए एक स्थानीय संरचना बनाने के लिए के लिए के रूप में उन लोगों के रूप .php
फ़ाइलें और इतने पर नाम बदलने। संबद्ध नहीं।
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
'-A' केस-संवेदी है, मुझे लगता है, तो आपको '-A ज़िप, ज़िप' करना होगा – Flimm
इस प्रयास करें:
सचमुच सभी फाइलों छोड़कर.html
आदि प्राप्त करने के लिए। यह हमेशा मुझे
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
wget -m -A * -pk -e robots=off www.mysite.com/
इस html फ़ाइल से उन्हें स्थानीय स्तर पर फ़ाइलों के सभी प्रकार के और बिंदु डाउनलोड हो जाएगा और यह रोबोट फ़ाइल
आप php डाउनलोड करना चाहते यहां तक कि अगर ध्यान नहीं देगा के लिए काम करता है, यह Wget का उपयोग कर संभव नहीं है। हम wget का उपयोग कर केवल कच्चे HTML प्राप्त कर सकते हैं। मुझे लगता है कि आपको कारण –
** एनबी: ** हमेशा 'wget --spider' के साथ जांचें, और हमेशा' -w 1' (या अधिक '-w 5') जोड़ें ताकि आप दूसरे व्यक्ति के बाढ़ को बाढ़ न करें सर्वर। – isomorphismes
मैं इस पृष्ठ में सभी पीडीएफ फाइलों को कैसे डाउनलोड कर सकता हूं? http://pualib.com/collection/pua-titles-a.html – Arturo