मैं इस पेज को स्क्रैप करने का आर का उपयोग करना चाहते में एक स्क्रैप वेब पेज से एक भी तत्व को अलग करने के लिए: (http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html) और अन्य लोगों, गोल स्कोरर और कई बार मिलता है।आर
अब तक, इस मैं क्या मिल गया है है:
require(RCurl)
require(XML)
theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
webpage <- getURL(theURL, header=FALSE, verbose=TRUE)
webpagecont <- readLines(tc <- textConnection(webpage)); close(tc)
pagetree <- htmlTreeParse(webpagecont, error=function(...){}, useInternalNodes = TRUE)
और pagetree वस्तु अब मेरे पार्स एचटीएमएल (मुझे लगता है कि) के लिए सूचक होता है। भाग मैं चाहता है:
<div class="cont")<ul>
<div class="bold medium">Goals scored</div>
<li>Philipp LAHM (GER) 6', </li>
<li>Paulo WANCHOPE (CRC) 12', </li>
<li>Miroslav KLOSE (GER) 17', </li>
<li>Miroslav KLOSE (GER) 61', </li>
<li>Paulo WANCHOPE (CRC) 73', </li>
<li>Torsten FRINGS (GER) 87'</li>
</ul></div>
लेकिन अब मैं उन्हें कैसे अलग करने के लिए के रूप में xpathSApply
खो रहा हूँ, और स्पष्ट रूप से और xpathApply
मुझे से बाहर beejeebies भ्रमित!
तो, किसी को भी तत्व <div class="cont">
टैग के भीतर समाहित बाहर चूसना करने के लिए एक कमांड तैयार करने के लिए कैसे पता है?
सावधान जब इस तरह काम करना ... ज्यादातर मामलों में, फीफा या एफआईबीए, एनबीए आदि जैसे संगठन अपने डेटा के उपयोग की अनुमति नहीं देते रहो - बस कहा: उनका डेटा उनकी संपत्ति है! तो अगली बार कुछ डमी एचटीएमएल कोड प्रदान करें, या बस कुछ हानिरहित साइट पर इंगित करें! =) – aL3xa