2012-07-05 11 views
9

मैं एक छोटे से वेब ऐप का एक स्थिर स्नैपशॉट लेने के लिए स्थानीय रूप से wget का उपयोग कर रहा हूं। जब मैं करता हूं, परिणामस्वरूप एचटीएमएल फाइलें उद्धरण चिह्नों और एस्ट्रोफ़ेस के स्थान पर अजीब पात्रों के साथ वापस आती हैं।wget और विशेष पात्र

इस व्यवहार से बचने के लिए मैं क्या कर सकता हूं?

धन्यवाद।

+1

सही आभासी मेजबान को जोड़ने के लिए कैसे आप जिसके परिणामस्वरूप फ़ाइलों का परीक्षण कर रहे कॉन्फ़िगर करने के लिए अपाचे आईएसओ 8859 पृष्ठों की सेवा करने के लिए किया गया था,? यह काफी संभावना है कि फ़ाइल में यूटीएफ -8 एन्कोडिंग है, और आपको उन्हें एक संपादक या वेब ब्राउज़र में जांचना होगा जो समझता है कि वे यूटीएफ -8 हैं। –

+0

@ ब्रेट आपने इस समस्या को कैसे हल किया? – SJU

+0

@ एंजेलट्सकोव, अब थोड़ी देर हो चुकी है, लेकिन मुझे नहीं लगता कि मुझे कभी समाधान मिला है। – Brett

उत्तर

6

लगता है जैसे आपको --remote-encoding शायद --remote-encoding=utf-8 निर्दिष्ट करने की आवश्यकता है।

+1

मैंने कोशिश की (मुझे अपने प्रश्न में उल्लेख किया जाना चाहिए था) और "wget: अपरिचित विकल्प" --remote-encoding = utf-8 'मिला। - जब मैं कॉल करता हूं तो रिमोट-एन्कोडिंग दिखाई नहीं देता है क्या ऐसा हो सकता है क्योंकि मैं विंडोज़ पर हूं? – Brett

+0

और आप सुनिश्चित हैं कि आपकी स्थानीय टर्मिनल लोकेल सेटिंग्स सही हैं? – Thor

+0

'wget'' का कौन सा संस्करण आप चल रहे हैं? 'Wget --version'। – Thor

0

मुझे यह समस्या थी लेकिन फिर मुझे पता चला कि मेरे ब्राउज़र ने गलत पृष्ठ के साथ वेब पेज दिखाया है। उदाहरण के लिए फ़ायरफ़ॉक्स में मुझे केवल व्यू -> कैरेक्टर एन्कोडिंग -> यूनिकोड बदलने की आवश्यकता है।

--restrict-file-names=nocontrol 

स्रोत::

+0

इसने मेरे लिए भी समस्या हल की, लेकिन केवल एक पृष्ठ के लिए। Wget द्वारा डाउनलोड किए गए अगले पृष्ठ पर नेविगेट करने के बाद मैंने फिर से फ़ायरफ़ॉक्स के एन्कोडिंग को यूनिकोड में बदलना पड़ा। – user1364368

9

मैं के साथ की कोशिश कर रहा सुझाव है http://www.win.tue.nl/~aeb/linux/misc/wget.html

+1

धन्यवाद! मैं थोड़ा अलग लेकिन संबंधित मुद्दा था, और यह विकल्प (हालांकि 'nocontrol' के बजाय 'ascii' के साथ) अंततः मुझे आवश्यक समाधान दिया। किसी भी तरह से मैं wget आदमी पढ़ने के दौरान इसे छोड़ दिया। –

0

मैं भी इस तरह के समस्या हुई। यह वह पृष्ठ दिखाई दिया जो मैं डाउनलोड कर रहा था gziped थे। आप इसे wget में -S विकल्प का उपयोग करके देख सकते हैं। आप एक

सामग्री-एन्कोडिंग मिलेगा: gzip

लाइन। इस तरह के मामले में मैं फ़ाइल पढ़ने के लिए zcat का उपयोग करें।

0

ऐसा लगता है कि wget एन्कोडिंग लगता है कि नहीं कर सकते हैं तो आप अपने वेब एप्लिकेशन के अपने html जवाब में यह की जरूरत है:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

0

मैं इस एक ही समस्या अलग-अलग हो गया था (एक wget विशेष वर्ण के साथ दर्पण और दर्पण ब्राउज़ करते समय उद्धरण चिह्न यूनिकोड "अज्ञात चार", ?) के रूप में दिखाए जाते हैं।

समस्या wget के आधार पर विभिन्न सर्वर एन्कोडिंग से संबंधित हो गई। मूल सर्वर एक पुराना विंडोज + आईआईएस इंस्टॉलेशन था जो आईएसओ -885 9 एन्कोडिंग के साथ एचटीएमएल पेजों की सेवा के लिए कॉन्फ़िगर किया गया था, जबकि दर्पण यूटीएफ -8 पृष्ठों की सेवा के लिए कॉन्फ़िगर किया गया एक लिनक्स + अपाचे सर्वर था।

समाधान के निर्देश AddDefaultCharset ISO-8859-1

संबंधित मुद्दे