मेरे पास अरबी, अंग्रेजी, रूसी फाइलों का एक समूह है जो utf-8 में एन्कोड किए गए हैं। इन एक पर्ल स्क्रिप्ट का उपयोग फ़ाइलों को प्रोसेस करने की कोशिश कर रहा है, मैं इस त्रुटि मिलती है:टेक्स्ट फ़ाइल से गैर यूटीएफ -8 अक्षरों को कैसे हटाएं
Malformed UTF-8 character (fatal)
मैन्युअल इन फ़ाइलों की सामग्री की जाँच, मैं उन्हें में कुछ अजीब पात्रों पाया। अब मैं इन वर्णों को फ़ाइलों से स्वचालित रूप से हटाने का एक तरीका ढूंढ रहा हूं।
क्या ऐसा करने के लिए वैसे भी है?
शायद यह वही है: http://stackoverflow.com/questions/7656283/malformed-utf-8-character-fatal-error-while-parsing-xml-using-xmllibxml –
कृपया इस लिंक का संदर्भ लें: http://unix.stackexchange.com/questions/6516/filtering-invalid-utf8 – askmish
गैर यूटीएफ -8 वर्ण क्या हैं? एक अच्छी तरह से गठित यूटीएफ -8 स्ट्रिंग में सभी वर्ण यूटीएफ -8 (वास्तव में यूनिकोड) वर्ण हैं! उनमें से कुछ यूटीएफ -8 लगातार कई बाइट्स में एन्कोड किए गए हैं .... –