मुझे एक पृष्ठ के मौजूदा शैलियों (शायद इनलाइन) के साथ HTML प्राप्त करने की आवश्यकता है जो सर्वर पक्ष का उपयोग करके प्रतिपादन समाप्त हो जाती है और चलती स्क्रिप्ट समाप्त करती है आवेदन जो केवल एक यूआरएल दिया जाएगा (कुकीज, कोई पोस्ट नहीं, कोई प्रजनन फॉर्म इत्यादि जैसी कोई अतिरिक्त जानकारी नहीं)।एक पृष्ठ के मौजूदा शैलियों (शायद रेखांकित) के साथ एचटीएमएल प्राप्त करें जो चलने वाली स्क्रिप्ट को समाप्त करने और समाप्त होने वाली स्क्रिप्ट
ब्राउज़र लाइब्रेरी का उपयोग कर अस्थायी रूप से चल रहे ब्राउज़र या स्टैंड स्टैंड अकेलेपन के लिए एक पुल/प्रॉक्सी एक स्वीकार्य समाधान है (हालांकि, चयनित ब्राउज़र या ब्राउज़र लाइब्रेरी सभी प्रमुख प्लेटफ़ॉर्म पर उपलब्ध होना चाहिए, और बिना चलाने में सक्षम होना चाहिए एक ओएस जीयूआई उपस्थिति स्थापित या स्थापित)।
बाद में सभी स्क्रिप्ट को हटाने के लिए एक वैकल्पिक आवश्यकता है (इसके लिए पहले से अकेले समाधान खड़े हैं, इसे यहां जोड़ना क्योंकि शायद दिया गया उत्तर प्रतिपादन करते समय स्क्रिप्ट को हटाने में सक्षम होगा)।
मैं एचटीएमएल + सीएसएस में एचटीएमएल + सीएसएस में एक मौजूदा एचटीएमएल दस्तावेज़ की मौजूदा एचटीएमएल दस्तावेज़ में एक स्नैपशॉट कैसे प्राप्त करूं (वर्तमान में रेखांकित) और वर्तमान छवियों (data URI का उपयोग कर)?
यदि यह शुद्ध PHP का उपयोग करके किया जा सकता है तो यह एक प्लस होगा (हालांकि मुझे शक है, मुझे कुछ भी दिलचस्प नहीं मिला है)।
संपादित करें: मुझे पता है कि HTTP संसाधन लोड और एक यूआरएल के लिए HTML पाने के लिए, जो वह नहीं है कि मैं क्या तलाश कर रहा हूँ;)
संपादित 2 उदाहरण इनपुट HTML:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html>
<head>
<title></title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8">
<link rel="stylesheet" type="text/css" href="/css/example.css">
<script type="text/javascript" src="/javascript/example.js"></script>
<script type="text/javascript">
window.addEventListener("load",
function(event){
document.title="New title";
document.getElementById("pic_0").style.border="0px";
}
);
</script>
<style type="text/css">
p{
color: blue;
}
</style>
</head>
<body>
<p>Hello world!</p>
<p>
<img
alt=""
style="border: 1px"
id="pic_0"
src="http://linuxgazette.net/144/misc/john/helloworld.png"
>
</p>
</body>
</html>
उदाहरण आउटपुट:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html>
<head>
<title>New title</title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8">
<style type="text/css">
b{font-weight: bold}
</style>
<style type="text/css">
p{
color: blue;
}
</style>
</head>
<body>
<p>Hello world!</p>
<p>
<img
alt=""
style="border: 0px"
id="pic_0"
src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAACgAAAAoBAMAAAB+0KVeAAAAK3RFWHRDcmVhdGlvbiBUaW1lAFYgMzEgYXVnLiAyMDEyIDE3OjU4OjU1ICswMjAwWMdbPwAAAAd0SU1FB9wIHw8ABeoUyU4AAAAJcEhZcwAACxIAAAsSAdLdfvwAAAAEZ0FNQQAAsY8L/GEFAAAABlBMVEX///8AAABVwtN+AAAAXklEQVR42uWQUQ6AMAhD6Q3a+19WqsawwMf+NLEfy3iDlC7idTGQp/YglFAsUMqSwjlQOhN3mIMTHDq70SeEWBbt0EG8POWkDySvmCh/SssvNfwIfb+hFmgjFKPf6gDQBAQ368m09AAAAABJRU5ErkJggg=="
>
</p>
</body>
</html>
सूचना कैसे +०१२३६४५८४२०टैग बदल गया, border: 1px
border: 0px
बन गया, कैसे छवि यूआरएल data URI में परिवर्तित किया गया था।
उदाहरण के लिए, इनमें से कुछ परिवर्तन (इनलाइन सीएसएस और <title>
टैग) Google क्रोम इंस्पेक्टर का उपयोग करते हुए दस्तावेज़ का निरीक्षण करते समय देखा जा सकता है।
संपादित करें 3: ऑन-पेज वाले (शैलियों और छवियों) के साथ बाहरी संसाधनों को बदलने और जावास्क्रिप्ट को हटाने का एक आसान हिस्सा है। हार्ड भाग जावास्क्रिप्ट चलाने के बाद सीएसएस शैली की गणना कर रहा है।
संपादित करें 4 शायद यह इंजेक्शन जावास्क्रिप्ट का उपयोग करके किया जा सकता है (फिर भी ब्राउज़र नियंत्रण की आवश्यकता है)?
आप एक प्रतिपादन इंजन को [जैसे बाइंडिंग की जरूरत है वेबकिट] - यह एक अच्छी शुरुआत हो सकती है: http://stackoverflow.com/questions/4362855/php-read-an-http-url-and-write-it-to-pdf – moonwave99
@ moonwave99 हाँ मुझे wkhtmltopdf के बारे में पता है:) अगर यह शुरुआत है तो मेरे पास बहुत काम है ... :( –
वैसे मुझे लगता है कि पीडीएफ को प्रतिपादन एक प्लस है - कोड में शुद्ध एचटीएमएल + सीएसएस प्राप्त करने पर एक कदम होना चाहिए, यदि आप की हिम्मत है लाइब्रेरी में गोता लगाने के लिए आपको आवश्यक डेटा मिल सकता है ^^ – moonwave99