2011-08-17 13 views
5

का उपयोग करके इसे सहेजना मैं एक वेब पेज लोड करना चाहता हूं और इसे कमांड लाइन का उपयोग करके सहेजना चाहता हूं (एक समान व्यवहार प्राप्त करना चाहते हैं जिसे हम फ़ायरफ़ॉक्स या क्रोम में एक पूर्ण पृष्ठ के रूप में सहेजने के लिए प्राप्त करते हैं।)एक एचटीएमएल पेज प्रस्तुत करना और कमांड लाइन

मैंने wget और fansrack का उपयोग करने की कोशिश की, वे मुझे HTML फ़ाइलों को सही ढंग से देते हैं। लेकिन एक विकृत एचटीएमएल के मामले में ब्राउजर इसे सुधारता है और वहां से बचाने के दौरान ब्राउज़र को ठीक करता है, हम सही एचटीएमएल प्राप्त करते हैं लेकिन यह wget या htttrack के मामले में नहीं होता है।

क्या कोई ऐसा उपकरण है जो पृष्ठ को प्रस्तुत करेगा और पृष्ठ को सभी छवियों और फ़्लैश और स्थानीय सभी अन्य सामानों के साथ सहेज देगा।

+0

फ़ायरफ़ॉक्स कमांड लाइन से उपयोग किया जा सकता है। हालांकि मैं पृष्ठ को सहेजने का विकल्प नहीं प्राप्त कर पा रहा हूं। कोई विचार...? –

उत्तर

2

जब मैं ऑफ़लाइन उपयोग के लिए पृष्ठों को सहेजना चाहता हूं, तो मैं "स्क्रैपबुक" नामक फ़ायरफ़ॉक्स प्लगइन का उपयोग करता हूं। वह, ज़ाहिर है, आपकी कमांड लाइन आवश्यकता के लिए अनुमति नहीं देता है। लेकिन अगर आप 'htmlunit' जैसे किसी टूल का उपयोग करते हैं या ऐसा कुछ करते हैं, तो आप उस पेज पर जाने के लिए फ़ायरफ़ॉक्स ब्राउज़र को ड्राइव कर सकते हैं जिसे आप सहेजना चाहते हैं।

0

कुछ परिष्कृत उपलब्ध सॉफ्टवेयर है कि वास्तव में क्या करता है: https://launchpad.net/shotfactory

+0

इसका उपयोग स्क्रीनशॉट को कैप्चर करने के लिए किया जाता है जो कुछ ऐसा नहीं है जिसे मैं –

1

आप curl या wget संयोजन में tidyhtml साथ इस्तेमाल कर सकते हैं, यानी

curl http://stackoverflow.com > page.html 
    tidy page.html > page_clean.html 

साफ किसी भी अमान्य HTML मार्कअप कन्वर्ट करने के लिए सक्षम होना चाहिए वैध एक्सएमटीएमएल के लिए।

+0

नहीं ढूंढ रहा हूं, यहां तक ​​कि इससे मेरी मदद नहीं होती है .. –

1

मुझे कुछ और नहीं मिला, इसलिए आखिरकार पेज को फ़ायरफ़ॉक्स में खोलना समाप्त हो गया और बटन को सहेजने के लिए क्लिक करें और इसे सहेज लिया .. पूरे कार्य को स्वचालित करने के लिए फ़ायरफ़ॉक्स और xdotools का उपयोग करके इसके लिए एक स्क्रिप्ट लिखी।

सभी मदद और दोस्तों के लिए धन्यवाद।

1

मुझे आज कुछ इसी तरह की आवश्यकता महसूस हुई (और xdotool पथ चला गया)। आप मेरा संस्करण (एक पुन: प्रयोज्य बैश स्क्रिप्ट) यहां देख सकते हैं: https://github.com/abiyani/automate-save-page-as

संबंधित मुद्दे