previous question के उत्तर में, कई लोगों ने सुझाव दिया कि मैं अपनी परियोजना के लिए BeautifulSoup का उपयोग करता हूं। मैं उनके दस्तावेज़ीकरण के साथ संघर्ष कर रहा हूं और मैं इसे पार्स नहीं कर सकता हूं। क्या कोई मुझे उस खंड में इंगित कर सकता है जहां मुझे इस अभिव्यक्ति को एक सुंदर सूप अभिव्यक्ति में अनुवाद करने में सक्षम होना चाहिए?मैं इस XPath अभिव्यक्ति को सुंदर सूप में कैसे अनुवाद कर सकता हूं?
hxs.select('//td[@class="altRow"][2]/a/@href').re('/.a\w+')
उपरोक्त अभिव्यक्ति Scrapy से है। मैं वहां से लिंक प्राप्त करने के लिए regex re('\.a\w+')
td class altRow
पर लागू करने का प्रयास कर रहा हूं।
मैं किसी अन्य ट्यूटोरियल या दस्तावेज़ीकरण के लिए पॉइंटर्स की भी सराहना करता हूं। मुझे कोई नहीं मिला।
आपकी मदद के लिए धन्यवाद।
संपादित करें: मैं इस page तलाश में हूं:, फिर भी
>>> soup.head.title
<title>White & Case LLP - Lawyers</title>
>>> soup.find(href=re.compile("/cabel"))
>>> soup.find(href=re.compile("/diversity"))
<a href="/diversity/committee">Committee</a>
यदि आप पृष्ठ स्रोत "/cabel"
को देखो है:
<td class="altRow" valign="middle" width="34%">
<a href='/cabel'>Abel, Christian</a>
किसी कारण से, खोज परिणाम नहीं हैं सुंदर सूप को दिखाई नहीं दे रहा है, लेकिन वे XPath के लिए दृश्यमान हैं क्योंकि hxs.select('//td[@class="altRow"][2]/a/@href').re('/.a\w+')
कैच "/ कैबेल"
संपादित करें: कोबबल: यह अभी भी काम नहीं कर रहा है। लेकिन जब मैं इसे खोजता हूं:
>>>soup.findAll(href=re.compile(r'/.a\w+'))
[<link href="/FCWSite/Include/styles/main.css" rel="stylesheet" type="text/css" />, <link rel="shortcut icon" type="image/ico" href="/FCWSite/Include/main_favicon.ico" />, <a href="/careers/northamerica">North America</a>, <a href="/careers/middleeastafrica">Middle East Africa</a>, <a href="/careers/europe">Europe</a>, <a href="/careers/latinamerica">Latin America</a>, <a href="/careers/asia">Asia</a>, <a href="/diversity/manager">Diversity Director</a>]
>>>
यह दूसरे चरित्र "ए" के साथ सभी लिंक देता है लेकिन वकील के नाम नहीं। तो किसी कारण से उन लिंक (जैसे "/ cabel") सुंदर सूप के लिए दृश्यमान नहीं हैं। मुझे समझ में नहीं आता क्यों।
क्या आपने सिंगल कोट्स के बजाय डबल-कोट्स की कोशिश की है: '...'। – jfs
जहां तक मैं कह सकता हूं, सुंदर सूप पृष्ठ को सही ढंग से पार्स नहीं कर रहा है, soup.contents टैग के बाद कुछ भी नहीं देता है < 'जो दस्तावेज़ की शुरुआत की ओर है। – cobbal