2010-04-15 5 views
9

के साथ वेब से जानकारी पुनर्प्राप्त करने के लिए urllib और BeautifulSoup का उपयोग करके मैं urllib का उपयोग कर HTML पृष्ठ प्राप्त कर सकता हूं, और HTML पृष्ठ को पार्स करने के लिए सुंदर सूप का उपयोग कर सकता हूं, और ऐसा लगता है कि मुझे सुंदर सूप से पढ़ने के लिए फ़ाइल जेनरेट करना है।पाइथन

import urllib          
sock = urllib.urlopen("http://SOMEWHERE") 
htmlSource = sock.read()        
sock.close()           
--> write to file 

क्या urllib से फ़ाइल उत्पन्न किए बिना सुंदर सूप को कॉल करने का कोई तरीका है?

उत्तर

18
from BeautifulSoup import BeautifulSoup 

soup = BeautifulSoup(htmlSource) 

कोई फ़ाइल लेखन आवश्यक नहीं है: बस HTML स्ट्रिंग में पास करें। आप urlopen से सीधे ऑब्जेक्ट को भी पास कर सकते हैं:

f = urllib.urlopen("http://SOMEWHERE") 
soup = BeautifulSoup(f)