मैं कुछ कोडिंग नौसिखिया हूं, और मैं एंड्रॉइड 3000 के गीत रैप प्रतिभा, http://genius.com/artists/Andre-3000 से सुंदर सूप (एक पायथन लाइब्रेरी का उपयोग करके डेटा खींचने के लिए स्क्रैप करने की कोशिश कर रहा हूं) एचटीएमएल और एक्सएमएल फाइलें)। मेरे अंतिम लक्ष्य में एक स्ट्रिंग प्रारूप में डेटा है। यहां मेरे पास अब तक है:रैप जीनियस डब्ल्यू/पायथन पर वेब स्क्रैपिंग रैप गीत
from bs4 import BeautifulSoup
from urllib2 import urlopen
artist_url = "http://rapgenius.com/artists/Andre-3000"
def get_song_links(url):
html = urlopen(url).read()
# print html
soup = BeautifulSoup(html, "lxml")
container = soup.find("div", "container")
song_links = [BASE_URL + dd.a["href"] for dd in container.findAll("dd")]
print song_links
get_song_links(artist_url)
for link in soup.find_all('a'):
print(link.get('href'))
इसलिए मुझे शेष कोड के साथ मदद चाहिए। मैं अपने गीत स्ट्रिंग प्रारूप में कैसे प्राप्त करूं? और फिर मैं वाक्य और शब्दों को टोकन करने के लिए राष्ट्रीय भाषा उपकरण किट (nltk) का उपयोग कैसे करूं?
इस महान है, लेकिन मैं इस त्रुटि मिलती है जब मैं इसे चलाने के लिए प्रयास करें "ImportError: नहीं मॉड्यूल नामित BS4" – Ibrewster
@Ibrewster आप 'beautifulsoup4' स्थापित करने की आवश्यकता: रन 'पीआईपी सुंदरसूप 4 स्थापित करें। – alecxe
हाँ, मेरे पास पहले से ही bs4 स्थापित है, और यह काम नहीं कर रहा था। तो मैंने इसे पुनः स्थापित करने का प्रयास किया और यह अभी भी काम नहीं करता है। – Ibrewster