मैं खुद को कुछ बुनियादी वेब स्क्रैपिंग सिखाने की कोशिश कर रहा हूं। अजगर के अनुरोध मॉड्यूल का उपयोग करना, मैं विभिन्न वेबसाइटों के लिए एचटीएमएल हड़पने के लिए सक्षम जब तक मैं इस की कोशिश की थी:पाइथन अनुरोधों का उपयोग कर एचटीएमएल प्राप्त करें?
>>> r = requests.get('http://www.wrcc.dri.edu/WRCCWrappers.py?sodxtrmts+028815+por+por+pcpn+none+mave+5+01+F')
मूल HTML इस पृष्ठ के लिए स्रोत है कि करने के बजाय
, मैं मिलता है:
>>> r.text
'\x1f\ufffd\x08\x00\x00\x00\x00\x00\x00\x03\ufffd]o\u06f8\x12\ufffd\ufffd\ufffd+\ufffd]...
>>> r.content
b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xed\x9d]o\xdb\xb8\x12\x86\xef\xfb+\x88]\x14h...
मैं मैंने प्रलेखन से और एसओ और अन्य उदाहरणों से अनुमान लगा सकते हैं कि प्रत्येक वाक्यविन्यास के साथ प्राप्त/पोस्ट के कई संयोजनों की कोशिश की है। मैं समझ नहीं पा रहा हूं कि मैं ऊपर क्या देख रहा हूं, इसे किसी भी चीज़ में बदलने में सक्षम नहीं हूं, जिसे मैं पढ़ सकता हूं, और यह नहीं समझ सकता कि मैं वास्तव में क्या चाहता हूं। मेरा सवाल है, मैं उपरोक्त पृष्ठ के लिए एचटीएमएल कैसे प्राप्त करूं?
, यहाँ काम करने के लिए लगता है सिर्फ अजगर 2.7 – Kroltan
'परीक्षण = html.fromstring (r.text) पर सटीक यूआरएल के साथ इसे करने की कोशिश' –
ईद अत्यधिक वेब scraping http के लिए BeautifulSoup की सलाह देते हैं: // सुंदर-soup- 4.readthedocs.org/en/latest/#। यह आपके जीवन को बहुत आसान बना देगा। – Ron