2010-11-28 14 views
7

क्या कोई मुझे पाइथन में फ़ाइल में सभी छवियों के लिंक प्राप्त करने के लिए एक HTML फ़ाइल पार्स करने में मदद कर सकता है?पायथन - एक HTML फ़ाइल से सभी छवियां प्राप्त करना

अधिमानतः एक तृतीय पक्ष मॉड्यूल के साथ ...

धन्यवाद!

उत्तर

9

आप Beautiful Soup का उपयोग कर सकते हैं। मुझे पता है कि आपने बिना किसी तृतीय पक्ष मॉड्यूल के बारे में कहा था। हालांकि, यह एचटीएमएल पार्स करने के लिए एक आदर्श उपकरण है।

import urllib2 
from BeautifulSoup import BeautifulSoup 
page = BeautifulSoup(urllib2.urlopen("http://www.url.com")) 
page.findAll('img') 
+1

ठीक है। ऐसा लगता है कि इससे बहुत मदद मिलेगी, इसलिए मैं इसे देख लूंगा। धन्यवाद! – user377419

+1

मुझे लगता है कि रसेल ने 'सुंदर सूप (पृष्ठ)' –

10

केवल पीएसएल

from html.parser import HTMLParser 
class MyParse(HTMLParser): 
    def handle_starttag(self, tag, attrs): 
     if tag=="img": 
      print(dict(attrs)["src"]) 

h=MyParse() 
page=open("index.html").read() 
h.feed(page) 
+1

को याद किया है, आप इसे वेब पेज खोलने और छवियों को डाउनलोड करने के लिए urllib के साथ बढ़ा सकते हैं। –

+1

मेरे लिए यह केवल "HTMLParser आयात HTMLParser से" के साथ काम करता है – nvrandow

2

का उपयोग कर यह आम तौर पर स्वीकार किया है कि lxml ब्यूटीफुल सूप (ref) से तेज है। इसका ट्यूटोरियल यहां पाया जा सकता है: (link) आप this old stackoverflow post पर भी एक नज़र डाल सकते हैं।

संबंधित मुद्दे