2011-08-25 15 views
5

अंदर मैं BeautifulSoup साथ एक वेब पेज को पार्स कर रहा हूँ, और यह जैसे कुछ तत्व है निम्नलिखित:एक टैग के बाहर पाठ जाओ और एक अन्य

<td><font size="2" color="#00009c"><b>Consultant Registration Number :</b></font> 16043646</td> 

संरचना हमेशा से घिरा पहले भाग के साथ एक <td> हो रहा है <font><b>, और </font> टैग के बाद पाठ खाली हो सकता है। मैं उस टैग को कैसे प्राप्त कर सकता हूं जो फ़ॉन्ट टैग के बाद है?

इस उदाहरण में मैं "16043646" प्राप्त करना चाहता हूं। यदि एचटीएमएल बजाय

<td><font size="2" color="#00009c"><b>Consultant Registration Number :</b></font></td> 

था मैं पाने के लिए ""

उत्तर

5
>>> from BeautifulSoup import BeautifulSoup 
>>> text1 = '<td><font size="2" color="#00009c"><b>Consultant Registration Number :</b></font> 16043646</td>' 
>>> text2 = '<td><font size="2" color="#00009c"><b>Consultant Registration Number :</b></font></td>' 
>>> BeautifulSoup(text1).td.font.nextSibling 
u' 16043646' 
>>> BeautifulSoup(text2).td.font.nextSibling 
>>> 
+0

धन्यवाद चाहते हैं। मैं उस दस्तावेज़ के उस हिस्से को देख रहा था लेकिन मुझे एहसास नहीं हुआ कि अगली सिब्लिंग को टैग के बाहर पाठ मिला है। – murgatroid99

संबंधित मुद्दे