में एक वेब पेज को कैसे पढ़ा जाए मैं PHP वेब स्क्रिप्ट का उपयोग कर कुछ वेब पेजों को पाठ फ़ाइलों में सहेजने की कोशिश कर रहा हूं।PHP
मैं PHP के साथ फ़ाइल बफर में एक वेब पेज कैसे लोड कर सकता हूं और HTML टैग को हटा सकता हूं?
में एक वेब पेज को कैसे पढ़ा जाए मैं PHP वेब स्क्रिप्ट का उपयोग कर कुछ वेब पेजों को पाठ फ़ाइलों में सहेजने की कोशिश कर रहा हूं।PHP
मैं PHP के साथ फ़ाइल बफर में एक वेब पेज कैसे लोड कर सकता हूं और HTML टैग को हटा सकता हूं?
fopen()
या file_get_contents()
यूआरएल: fopen("http://google.com/", "r")
http
मॉड्यूल सेhttp_get()
stream_socket_client()
system()
के माध्यम से wget
या curl
के रूप में इस तरह के उपकरणइनमें से कोई नहीं करने के लिए गारंटी है:sockets
एक ही रास्ता:
$url = "http://www.brothersoft.com/publisher/xtracomponents.html";
$page = file_get_contents($url);
$outfile = "xtracomponents.html";
file_put_contents($outfile, $page);
ऊपर कोड सिर्फ एक उदाहरण है और किसी भी त्रुटि जाँच और हैंडलिंग का अभाव है (!)।
जैसा कि अन्य उत्तरों ने कहा है, या तो मानक PHP स्ट्रीम फ़ंक्शन या कर्ल HTML को पुनर्प्राप्त करने के लिए आपकी सबसे अच्छी शर्त है। टैग को हटाने का सवाल है, यहां एक जोड़े दृष्टिकोण हैं:
विकल्प # 1: रिकर्सिवली दस्तावेज़ पेड़ के माध्यम से चलना और नोड्स से पाठ वापस जाने के लिए साफ एक्सटेंशन का उपयोग करें, यदि उपलब्ध है अपने सर्वर पर,। कुछ इस तरह:
function textFromHtml(TidyNode $node) {
if ($node->isText()) {
return $node->value;
} else if ($node->hasChildren()) {
$childText = '';
foreach ($node->child as $child)
$childText .= textFromHtml($child);
return $childText;
}
return '';
}
आपको लगता है कि अधिक से अधिक परिष्कृत कुछ, उदाहरण के लिए चाहते हो सकता है, कि नई-पंक्तियों के साथ <br />
टैग (जहां $node->name == 'br'
) की जगह है, लेकिन यह एक शुरुआत के लिए करना होगा।
फिर, HTML के टेक्स्ट को एक टिडी ऑब्जेक्ट में लोड करें और अपने फ़ंक्शन को बॉडी नोड पर कॉल करें। आप एक स्ट्रिंग में सामग्री है, तो का उपयोग करें:
$tidy = new tidy();
$tidy->parseString($contents);
$text = textFromHtml($tidy->body());
विकल्प # 2: उपयोग regexes <
और >
के बीच सब कुछ पट्टी। आप (और संभवतः) एक अधिक परिष्कृत रेगेक्स विकसित कर सकते हैं, उदाहरण के लिए, केवल वैध HTML प्रारंभ या अंत टैग से मेल खाता है। पृष्ठ के सिंकैक्स में कोई भी त्रुटि, जैसे कि बॉडी टेक्स्ट में एक भटक कोण ब्रैकेट, कचरा आउटपुट का मतलब हो सकता है यदि आप सावधान नहीं हैं। यही कारण है कि टिडी बहुत अच्छा है (यह विशेष रूप से खराब पृष्ठों को साफ करने के लिए डिज़ाइन किया गया है), लेकिन यह उपलब्ध नहीं हो सकता है।
मैं आपको सरल HTML DOM कक्षा को देखने के लिए दृढ़ता से अनुशंसा करता हूं;
SimpleHTML DOM Parser at SourceForge
इसके साथ आप jQuery के $() फ़ंक्शन या prototypeJS $$() समारोह के साथ की तरह सीएसएस चयनकर्ताओं का उपयोग कर डोम पेड़ खोज सकते हैं।
हालांकि यह() file_get_contents साथ काम करता है एक वेब पृष्ठ की सामग्री प्राप्त करने के लिए, आप इसे केवल HTML तुम्हारा के कुछ cURL वर्ग के साथ पारित कर सकते हैं
महान उत्तर के लिए +1 (यदि आप लॉग-इन करने आदि की जरूरत है)! –
मैं बाह्य उपकरण उपयोग को एक बेवकूफ तरीके से नहीं बुलाऊंगा –
@YourCommonSense मुझे लगता है कि अपमानजनक हिस्सा * सिस्टम() *** के माध्यम से एक बाहरी उपकरण ** है। वह कर्ल लाइब्रेरी का भी उल्लेख करता है और इसे "स्मार्ट तरीका" कहते हैं। –