मुझे मिल गया है एचटीएमएल है कि इस तरह प्रविष्टियों शामिल:पाइथन पुस्तकालय jQuery की तरह पाठ निष्कर्षण करने के लिए?
<div class="entry">
<h3 class="foo">
<a href="http://www.example.com/blog-entry-slug"
rel="bookmark">Blog Entry</a>
</h3>
...
</div>
और मैं पाठ "ब्लॉग एंट्री 'निकालने के लिए चाहते हैं (और अन्य विशेषताओं के एक नंबर है, इसलिए मैं एक सामान्य उत्तर के लिए देख रहा हूँ) । http://code.google.com/p/soupselect/ से
from BeautifulSoup import BeautifulSoup
import soupselect as soup
rawsoup = BeautifulSoup(open('fname.html').read())
for entry in rawsoup.findAll('div', 'entry'):
print soup.select(entry, 'a[rel=bookmark]')[0].string.strip()
soupselect:
jQuery में, मैं क्या करना होगा
$('.entry a[rel=bookmark]').text()
निकटतम मैं अजगर में प्राप्त करने में सक्षम किया गया है है।
सूपसेलेक्ट पूर्ण CSS3 चयनकर्ता वाक्यविन्यास को समझ में नहीं आता है, जैसे कि jQuery करता है। क्या पाइथन में ऐसा कोई जानवर है?
यह किसी कारण से मेरे लिए काम नहीं करता है (सेस्ट्रिंग वैध एचटीएमएल * एलओएल * लगता है), लेकिन आपके द्वारा दिए गए लिंक में से एक ने मुझे पक्की की ओर ले जाया। प्यक्वायरी के लिए प्रेरणा "अरे चलो पाइथन में jquery बनाते हैं", और मेरे प्रारंभिक परीक्षण से मैं दस्तावेज़ों को पढ़ने के बजाए jQuery के अपने ज्ञान पर भरोसा करने में सक्षम हूं (!) – thebjorn
"lxml.html आयात से" विकृत एचटीएमएल – Saurav