क्या कोई मुझे पाइथन में फ़ाइल में सभी छवियों के लिंक प्राप्त करने के लिए एक HTML फ़ाइल पार्स करने में मदद कर सकता है?पायथन - एक HTML फ़ाइल से सभी छवियां प्राप्त करना
अधिमानतः एक तृतीय पक्ष मॉड्यूल के साथ ...
धन्यवाद!
क्या कोई मुझे पाइथन में फ़ाइल में सभी छवियों के लिंक प्राप्त करने के लिए एक HTML फ़ाइल पार्स करने में मदद कर सकता है?पायथन - एक HTML फ़ाइल से सभी छवियां प्राप्त करना
अधिमानतः एक तृतीय पक्ष मॉड्यूल के साथ ...
धन्यवाद!
आप Beautiful Soup का उपयोग कर सकते हैं। मुझे पता है कि आपने बिना किसी तृतीय पक्ष मॉड्यूल के बारे में कहा था। हालांकि, यह एचटीएमएल पार्स करने के लिए एक आदर्श उपकरण है।
import urllib2
from BeautifulSoup import BeautifulSoup
page = BeautifulSoup(urllib2.urlopen("http://www.url.com"))
page.findAll('img')
केवल पीएसएल
from html.parser import HTMLParser
class MyParse(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag=="img":
print(dict(attrs)["src"])
h=MyParse()
page=open("index.html").read()
h.feed(page)
को याद किया है, आप इसे वेब पेज खोलने और छवियों को डाउनलोड करने के लिए urllib के साथ बढ़ा सकते हैं। –
मेरे लिए यह केवल "HTMLParser आयात HTMLParser से" के साथ काम करता है – nvrandow
का उपयोग कर यह आम तौर पर स्वीकार किया है कि lxml ब्यूटीफुल सूप (ref) से तेज है। इसका ट्यूटोरियल यहां पाया जा सकता है: (link) आप this old stackoverflow post पर भी एक नज़र डाल सकते हैं।
ठीक है। ऐसा लगता है कि इससे बहुत मदद मिलेगी, इसलिए मैं इसे देख लूंगा। धन्यवाद! – user377419
मुझे लगता है कि रसेल ने 'सुंदर सूप (पृष्ठ)' –