मैंने अभी पाइथन का उपयोग करके वेब स्क्रैपिंग सीखना शुरू कर दिया है। हालांकि, मैं पहले से ही कुछ समस्याओं में भाग गया है।पाइथन का उपयोग कर वेब स्क्रैपिंग डेटा?
मेरा लक्ष्य वेब स्क्रैप करने के लिए fishbase.org (http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=salmon) से अलग टूना प्रजातियों के नाम
समस्या है: मैं मैं सभी प्रजातियों के नाम निकालने में असमर्थ हूं।
import urllib2
from bs4 import BeautifulSoup
fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Tuna'
page = urllib2.urlopen(fish_url)
soup = BeautifulSoup(html_doc)
spans = soup.find_all(
यहाँ से, मैं नहीं जानता कि मैं कैसे प्रजातियों के नाम निकालने के बारे में जाना होगा:
यह वही है मैं अब तक है। मैं regex (यानी soup.find_all("a", text=re.compile("\d+\s+\d+"))
का उपयोग कर टैग के अंदर ग्रंथों पर कब्जा करने के बारे में सोचा है ...
किसी भी इनपुट अत्यधिक सराहना की जाएगी!
दरअसल '' findAll' find_all' करने के लिए नाम दिया गया है पेप 8 अनुपालन हो। अधिक जानकारी [यहां] (http://www.crummy.com/software/BeautifulSoup/bs4/doc/#method-names)। – jcollado