2012-11-06 19 views
5

मैं (आर) में कोशिश कर रहा हूँ से कुछ स्क्रैप डेटा:वेब स्क्रैपिंग को माउस क्लिक करने की आवश्यकता है?

http://www.soccerbase.com/matches/results.sd?date=2012-11-04

अर्थात्, मैं जब तुम मैं बटन दबाएँ मैच विवरण जो पृष्ठ पर दिखाई देते प्राप्त करना चाहते हैं। हालांकि, बटन पर क्लिक होने वाली दिखाई देने वाली जानकारी मूल HTML कोड में निहित नहीं है। सभी मैं देख सकता हूँ एक लाइन (जहाँ मैं डेटा की उम्मीद निहित करने के लिए) ...

<span class="infoField"><a href="#" class="info finished" title="Show full match details"></a></span> 

... जो काफी मुझे एक मरे हुए अंत में छोड़ देता है ... किसी भी विचार है?

+1

आपको फ़ायरफ़ॉक्स या क्रोम देव उपकरण में फ़ायरबग का उपयोग शुरू करना चाहिए। वेबसाइट http://www.soccerbase.com/matches/additional_information.sd?id_game=652536 –

+2

पर जावास्क्रिप्ट अनुरोध करता है आपको नियम और शर्तें भी पढ़नी चाहिए। – Spacedman

+0

@ स्पेसमैन संयुक्त राज्य अमेरिका में, कम से कम, वे नियम और शर्तें कानूनी रूप से बाध्यकारी नहीं हैं। उदाहरण देखें http://www.forbes.com/sites/ericgoldman/2012/10/10/how-zappos-user-agreement-failed-in-court-and-left-zappos-legally-naked/ – hadley

उत्तर

4
require(XML) 
require(RCurl) 
dataurl<-'http://www.soccerbase.com/matches/results.sd?date=2012-11-04' 
sdata<-htmlParse(dataurl) 
sid<-xpathSApply(sdata,'//*/tr/@id') 
sid<-gsub('^tgc','',sid) 
mUrl<-paste0('http://www.soccerbase.com/matches/additional_information.sd?id_game=',sid) 

उपर्युक्त कोड अतिरिक्त डेटा के लिए आवश्यक यूआरएल प्राप्त करेगा। हालांकि मैं अपने डेटा को कटाई के संबंध में साइट के साथ जांच करूंगा।

संबंधित मुद्दे