मैं पाइथन HTMLParser लाइब्रेरी का उपयोग कर एक HTML पृष्ठ से मूल्य प्राप्त करने का प्रयास कर रहा हूं। मूल्य मैं की पकड़ पाने के लिए इस HTML तत्व के भीतर है:मैं एक विशिष्ट div टैग से डेटा निकालने के लिए पाइथन HTMLParser लाइब्रेरी का उपयोग कैसे कर सकता हूं?
...
<div id="remository">20</div>
...
यह मेरा HTMLParser वर्ग अब तक है:
class LinksParser(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
self.seen = {}
def handle_starttag(self, tag, attributes):
if tag != 'div': return
for name, value in attributes:
if name == 'id' and value == 'remository':
#print value
return
def handle_data(self, data):
print data
p = LinksParser()
f = urllib.urlopen("http://domain.com/somepage.html")
html = f.read()
p.feed(html)
p.close()
कोई सही दिशा में मुझे बात कर सकते हैं? मैं कक्षा कार्यक्षमता मूल्य 20.
आप HTML पार्स की एक बहुत कुछ कर रहे हैं, तो कोशिश [ब्यूटीफुल सूप] (http://www.crummy.com/software/BeautifulSoup/)। – zvone
क्या पुस्तकालय एक पायथन std पुस्तकालय के रूप में शामिल है? मैं इसे पार कर गया हूं लेकिन HTMLParser के साथ चिपकने का फैसला किया है। – Martin
@zvone एचटीएमएल पार्सिंग के लिए सुंदर सूप बेहतर क्यों है? क्या यह अभी भी एक अनुशंसित मॉड्यूल है? धन्यवाद। –