क्या पाइथन के पास संपूर्ण एचटीएमएल पेज और इसकी सामग्री (छवियों, सीएसएस) को यूआरएल दिए गए स्थानीय फ़ोल्डर में डाउनलोड करने का कोई तरीका है। और स्थानीय रूप से सामग्री लेने के लिए स्थानीय HTML फ़ाइल को अपडेट करना।एचटीएमएल पेज और इसकी सामग्री डाउनलोड करें
उत्तर
आप अलग-अलग URL डाउनलोड करने के लिए urllib
मॉड्यूल का उपयोग कर सकते हैं लेकिन यह सिर्फ डेटा दिखाएगी। यह HTML को पार्स नहीं करेगा और सीएसएस फ़ाइलों और छवियों जैसी चीजों को स्वचालित रूप से डाउनलोड नहीं करेगा।
यदि आप "संपूर्ण" पृष्ठ डाउनलोड करना चाहते हैं तो आपको HTML को पार्स करने और अन्य चीज़ों को डाउनलोड करने की आवश्यकता होगी जिन्हें आपको डाउनलोड करने की आवश्यकता है। आपके द्वारा पुनर्प्राप्त HTML को पार्स करने के लिए आप Beautiful Soup जैसे कुछ का उपयोग कर सकते हैं।
This question में कुछ नमूना कोड ठीक से ऐसा कर रहा है।
आप urlib उपयोग कर सकते हैं:
import urllib.request
opener = urllib.request.FancyURLopener({})
url = "http://stackoverflow.com/"
f = opener.open(url)
content = f.read()
जो आप खोज रहे हैं वह एक मिररिंग टूल है। यदि आप पाइथन में एक चाहते हैं, तो पीईपीआई spider.py सूचीबद्ध करता है लेकिन मुझे इसका कोई अनुभव नहीं है। अन्य बेहतर हो सकते हैं लेकिन मुझे नहीं पता - मैं 'wget' का उपयोग करता हूं, जो getting the CSS और छवियों का समर्थन करता है। यह शायद आप क्या चाहते हैं इस तरह के इनलाइन चित्र और बाह्य शैली शीट के रूप में (the manual से उद्धृत)
केवल एक HTML पृष्ठ को पुनः प्राप्त है, लेकिन यह सुनिश्चित करें कि सभी तत्वों पेज के लिए आवश्यक प्रदर्शित करने के लिए बनाने के लिए, करता है , भी डाउनलोड कर रहे हैं। सुनिश्चित करें कि डाउनलोड किए गए पृष्ठ संदर्भ डाउनलोड किए गए लिंक हैं।
wget -p --convert-links http://www.server.com/dir/page.html
- 1. एचटीएमएल शरीर इसकी सामग्री से छोटी है
- 2. पायथन में एचटीएमएल डाउनलोड करें?
- 3. क्या मैं अपनी सभी एचटीएमएल सामग्री (पेज)
- 4. सीएसएस फ्लोट सामग्री को एचटीएमएल पेज
- 5. फेसबुक iframe से पैरेंट पेज एचटीएमएल सामग्री प्राप्त करें?
- 6. एचटीएमएल - पेज
- 7. जेआईआरए में उत्कृष्टता के लिए सभी मुद्दों और इसकी सामग्री (पूर्ण सामग्री) को कैसे निर्यात करें?
- 8. एचटीएमएल कैनवास का आकार बदलना इसकी सामग्री को
- 9. पायथन रीडायरेक्ट का पालन करें और फिर पेज डाउनलोड करें?
- 10. एक div और इसकी सामग्री को मुद्रित होने से रोकना
- 11. एचटीएमएल पेज
- 12. एचटीएमएल पेज
- 13. एचटीएमएल पेज
- 14. एचटीएमएल प्रिंट पेज निर्दिष्ट करें?
- 15. wget डाउनलोड aspx पेज
- 16. पेज सामग्री में एचटीएमएल इकाइयों के लिए आरईपीसी परीक्षण
- 17. एचटीएमएल पेज
- 18. एचटीएमएल-पेज
- 19. एचटीएमएल पेज प्राप्त करें और इसे MYSQL में स्टोर करें-
- 20. वार्निश + स्टेटिक एचटीएमएल पेज
- 21. इसकी संभव शुद्ध एचटीएमएल 5
- 22. शैल: एक फ़ाइल पढ़ें और इसकी सामग्री को दूसरी फ़ाइल
- 23. एचटीएमएल से एएसपीएक्स पेज
- 24. एचटीएमएल एंकरों के साथ फोर्स पेज रीलोड (#) - एचटीएमएल और जेएस
- 25. एचटीएमएल: बल पीडीएफ डाउनलोड
- 26. एचटीएमएल डाउनलोड टैग
- 27. फ़ाइल डाउनलोड करके .ashx पेज
- 28. एक ही एचटीएमएल पेज
- 29. PHP: डाउनलोड मजबूर करने के बाद सामग्री प्रदर्शित करें?
- 30. एचटीएमएल पेज और ब्राउज़र विंडो का आकार सेट करें
केवल खाते HTTP प्रतिसाद कोड को ध्यान में रखकर एक पेज डाउनलोड करने के लिए प्रकट होता है कि; यह वास्तव में पेज संसाधनों को डाउनलोड नहीं करता है जब तक कि मुझे कुछ याद नहीं आ रहा है। – bdeniker