एक greate ट्यूटोरियल here जो guzzlehttp और symfony/dom-crawler
जोड़ती मामले लिंक यहाँ खो दिया है कोड आप उपयोग कर सकते हैं है में नहीं है।
use Guzzle\Http\Client;
use Symfony\Component\DomCrawler\Crawler;
use RuntimeException;
// create http client instance
$client = new GuzzleHttp\ClientClient('http://download.cloud.com/releases');
// create a request
$response = $client->request('/3.0.6/api_3.0.6/TOC_Domain_Admin.html');
// get status code
$status = $response->getStatusCode();
// this is the response body from the requested page (usually html)
//$result = $response->getBody();
// crate crawler instance from body HTML code
$crawler = new Crawler($response->getBody(true));
// apply css selector filter
$filter = $crawler->filter('div.apismallbullet_box');
$result = array();
if (iterator_count($filter) > 1) {
// iterate over filter results
foreach ($filter as $i => $content) {
// create crawler instance for result
$cralwer = new Crawler($content);
// extract the values needed
$result[$i] = array(
'topic' => $crawler->filter('h5')->text();
'className' => trim(str_replace(' ', '', $result[$i]['topic'])) . 'Client'
);
}
} else {
throw new RuntimeException('Got empty result processing the dataset!');
}
स्रोत
2017-01-03 05:30:00
कोई क्रॉलर डेटा स्क्रैपिंग करने वाला नहीं है, ऐसा कुछ है जिसे आप स्वयं लिखना चाहते हैं। और यह भी सुनिश्चित करें कि आप जो उठा रहे हैं वह कॉपीराइट नहीं है। –
[एचटीएमएल पार्स करने के लिए सर्वोत्तम तरीके] के संभावित डुप्लिकेट (http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662) – Gordon
http://stackoverflow.com में अतिरिक्त संभावित डुप्लिकेट/खोज? q = वेब + क्रॉलर + php – Gordon