के साथ दस्तावेज़ DOCTYPE प्राप्त करें मैंने scrapy के साथ BeautifulSoup के संयोजन के साथ टिंकरिंग शुरू कर दी है और मुझे आश्चर्य है कि मुझे कुछ बहुत याद आ रही है लेकिन मुझे यह पता लगाना नहीं है कि कैसे लौटाया गया कार्यप्रणाली प्राप्त करें परिणामी सूप ऑब्जेक्ट से एचटीएमएल दस्तावेज़।सुंदर सूप
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html lang="en">
<head>
<meta charset=utf-8 />
<meta name="viewport" content="width=620" />
<title>HTML5 Demos and Examples</title>
<link rel="stylesheet" href="/css/html5demos.css" type="text/css" />
<script src="js/h5utils.js"></script>
</head>
<body>
<p id="firstpara" align="center">This is paragraph <b>one</b>
<p id="secondpara" align="blah">This is paragraph <b>two</b>.
</html>
किसी को भी मुझे बता सकते हैं कि इसमें से घोषित doctype BeautifulSoup का उपयोग कर निकालने की कोई तरीका है:
निम्नलिखित एचटीएमएल को देखते हुए?
सावधान रहें, यह वाक्यविन्यास तोड़ देगा यदि कार्यप्रणाली पहली वस्तु नहीं है। उदाहरण के लिए, जब दस्तावेज़ के शीर्ष पर एक एक्सएमएल घोषणा होती है। – karlcow
यह कुछ भी वापस कर सकता है, क्योंकि डॉक्टरेट गायब हो सकता है और यह अक्सर होता है। – zvone