में लाइव ओलंपिक पदक डेटा डाउनलोड करना ऐसा लगता है कि वेबसाइट कर्ल से सीधे पहुंच को अवरुद्ध कर रही है।आर
library(XML)
library(RCurl)
theurl <- "http://www.london2012.com/medals/medal-count/"
page <- getURL(theurl)
page # fail
[1] "<HTML><HEAD>\n<TITLE>Access Denied</TITLE>\n</HEAD><BODY>\n<H1>Access Denied</H1>\n \nYou don't have permission to access \"http://www.london2012.com/medals/medal-count/\" on this server.<P>\nReference #18.358a503f.1343590091.c056ae2\n</BODY>\n</HTML>\n"
चलो यह देखने का प्रयास करें कि हम इसे सीधे तालिका से एक्सेस कर सकते हैं या नहीं।
page <- readHTMLTable(theurl)
वहाँ Error in htmlParse(doc) : error in creating parser for http://www.london2012.com/medals/medal-count/
कैसे आप आर में इस तालिका करने के बारे में जाना होगा नहीं किस्मत?
अद्यतन: टिप्पणियों और टोइंग के जवाब में, उपयोगकर्ता एजेंट स्ट्रिंग को सामग्री प्राप्त करने के लिए काम करना। लेकिन readHTMLtable एक त्रुटि देता है।
page <- getURLContent(theurl, useragent="Mozilla/5.0 (Windows NT 6.1; rv:15.0) Gecko/20120716 Firefox/15.0a2")
लिंक्स, साथ ही अवरुद्ध हो रहा है। –
चूंकि पेज फ़ायरफ़ॉक्स में लोड होता है, स्रोत देखें और डिस्क पर सहेजें? –
getURL के साथ आप एक झूठी उपयोगकर्ता एजेंट स्ट्रिंग निर्दिष्ट कर सकते हैं, जो डेटा प्राप्त करने के लिए काम करता है। लेकिन readHTMLTable अभी भी अच्छी तरह से बाहर नहीं निकलता है। यह एक त्रुटि देता है ('नामों में त्रुटि (उत्तर) = शीर्षलेख: 'नाम' विशेषता [13] वेक्टर [7]') के समान लंबाई होनी चाहिए, यह सुनिश्चित नहीं है कि इसे कैसे डिबग करना है। –