से सीडीएटा कैसे प्राप्त कर सकता हूं मेरे पास एक ऐसी वेबसाइट है जिसे मैं स्क्रैप कर रहा हूं जिसमें निम्न समान संरचना है। मैं सीडीटा ब्लॉक से जानकारी को पकड़ने में सक्षम होना चाहता हूं।मैं सुंदर सूप
मैं पेज से अन्य जानकारी खींचने के लिए सुंदर सूप का उपयोग कर रहा हूं, इसलिए अगर समाधान उसके साथ काम कर सकता है, तो यह मेरे सीखने की वक्र को नीचे रखने में मदद करेगा क्योंकि मैं एक अजगर नौसिखिया हूं। विशेष रूप से, मैं सीडीएटा कथन में छिपा हुआ दो अलग-अलग प्रकार के डेटा प्राप्त करना चाहता हूं। पहला जो सिर्फ पाठ है, मुझे पूरा यकीन है कि मैं उस पर एक रेगेक्स फेंक सकता हूं और मुझे जो चाहिए वह प्राप्त करें। दूसरे प्रकार के लिए, यदि मैं उस डेटा को छोड़ सकता हूं जिसमें HTML तत्वों को अपने स्वयं के सुंदर सूप में रखा गया है, तो मैं इसे पार्स कर सकता हूं।
मैं सिर्फ पाइथन और सुंदरसप सीख रहा हूं, इसलिए मैं जादुई incantation खोजने के लिए संघर्ष कर रहा हूं जो मुझे केवल सीडीएटी देगा।
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>
Cows and Sheep
</title>
</head>
<body>
<div id="main">
<div id="main-precontents">
<div id="main-contents" class="main-contents">
<script type="text/javascript">
//<![CDATA[var _ = g_cow;_[7654]={cowname_enus:'cows rule!',leather_quality:99,icon:'cow_level_23'};_[37357]={sheepname_enus:'baa breath',wool_quality:75,icon:'sheep_level_23'};_[39654].cowmeat_enus = '<table><tr><td><b class="q4">cows rule!</b><br></br>
<!--ts-->
get it now<table width="100%"><tr><td>NOW</td><th>NOW</th></tr></table><span>244 Cows</span><br></br>67 leather<br></br>68 Brains
<!--yy-->
<span class="q0">Cow Bonus: +9 Cow Power</span><br></br>Sheep Power 60/60<br></br>Sheep 88<br></br>Cow Level 555</td></tr></table>
<!--?5695:5:40:45-->
';
//]]>
</script>
</div>
</div>
</div>
</body>
</html>
ओच, यह एक बेहद खराब विकृत ब्लॉक है! यदि यह वास्तविक मार्कअप है, तो यह वास्तव में कहीं भी काम नहीं करेगा, न तो एक्सएचटीएमएल और न ही एचटीएमएल ... – bobince
यह वास्तविक नहीं है, मैं बहुत अधिक ब्लॉक को जोड़ना चाहता था। अनुमान है कि मैं बहुत ज्यादा फट गया। –