"चार स्कोर" उदाहरण के साथ, यह लगभग निश्चित रूप से दोगुनी-एन्कोडेड डेटा है।
- cp1252 डेटा कि UTF8 प्रक्रिया के लिए एक cp1252 के माध्यम से दो बार चलाया गया था, या
- UTF8 डेटा कि
(स्वाभाविक रूप से UTF8 प्रक्रिया के लिए एक cp1252 के माध्यम से चलाया गया था, दोनों ही मामलों: ऐसा लगता है कि या तो लग रहा है समान दिखें)
अब, यही वही है जो आपने अपेक्षित था, तो आपका कोड क्यों काम नहीं करता?
सबसे पहले, मैं आपको this table पर संदर्भित करना चाहता हूं जो सीपी 1252 से यूनिकोड में रूपांतरण दिखाता है। महत्वपूर्ण बात यह है कि मैं आपको नोट करना चाहता हूं कि कुछ बाइट्स (जैसे 0x9D) हैं जो cp1252 में मान्य नहीं हैं।
जब मैं utf8 कनवर्टर को एक cp1252 लिखने की कल्पना करता हूं, इसलिए मुझे उन बाइट्स के साथ कुछ करने की ज़रूरत है जो cp1252 में नहीं हैं। एकमात्र समझदार चीज जिसे मैं सोच सकता हूं, अज्ञात बाइट्स को उसी मूल्य पर यूनिकोड वर्णों में परिवर्तित करना है। वास्तव में, ऐसा लगता है कि क्या हुआ। चलिए अपने "चार अंक" उदाहरण को एक समय में एक कदम वापस लेते हैं।
$ perl -CO -MEncode -e '$a=decode("utf-8",
"\xC3\xA2\xE2\x82\xAC\xC5\x93" .
"four score" .
"\xC3\xA2\xE2\x82\xAC\xC2\x9D");
for $c (split(//,$a)) {printf "%x ",ord($c);}' | fmt
यह यूनिकोड कोड अंक के इस क्रम पैदावार:
सबसे पहले, के बाद से यह है वैध UTF-8, के डिकोड साथ जाने
e2 20ac 153 66 6f 75 72 20 73 63 6f 72 65 e2 20ac 9d
("fmt" एक यूनिक्स कमांड है कि बस टेक्स्ट को दोबारा सुधारता है ताकि हमारे पास लंबे डेटा के साथ अच्छी लाइन ब्रेक हो)
अब, इनमें से प्रत्येक को cp1252 में बाइट के रूप में प्रस्तुत करते हैं, लेकिन जब यूनिकोड चरित्र को cp1252 में प्रदर्शित नहीं किया जा सकता है, तो चलिए इसे एक बाइट के साथ प्रतिस्थापित करें जिसमें समान संख्यात्मक मान हो। (डिफ़ॉल्ट के बजाय, जिसे इसे एक प्रश्न चिह्न के साथ प्रतिस्थापित करना है) हमें तब करना चाहिए, अगर हम डेटा के साथ क्या हुआ, तो एक वैध utf8 बाइट स्ट्रीम है।
$ perl -CO -MEncode -e '$a=decode("utf-8",
"\xC3\xA2\xE2\x82\xAC\xC5\x93" .
"four score" .
"\xC3\xA2\xE2\x82\xAC\xC2\x9D");
$a=encode("cp-1252", $a, sub { chr($_[0]) });
for $c (split(//,$a)) {printf "%x ",ord($c);}' | fmt
तीसरा तर्क एन्कोड करने के लिए है कि - जब यह एक उप है - बताता है कि unrepresentable पात्रों के साथ क्या करना है।
यह पैदावार:
e2 80 9c 66 6f 75 72 20 73 63 6f 72 65 e2 80 9d
अब, यह एक मान्य UTF8 बाइट धारा है। निरीक्षण द्वारा यह नहीं बता सकते हैं? ठीक है, पर्ल UTF8 के रूप में इस बाइट धारा डिकोड करने के लिए पूछना है:
$ perl -CO -MEncode -e '$a=decode("utf-8",
"\xC3\xA2\xE2\x82\xAC\xC5\x93" .
"four score" .
"\xC3\xA2\xE2\x82\xAC\xC2\x9D");
$a=encode("cp-1252", $a, sub { chr($_[0]) });
$a=decode("utf-8", $a, 1);
for $c (split(//,$a)) {printf "%x ",ord($c);}' | fmt
पासिंग "1" के रूप में डिकोड करने के लिए तीसरा तर्क सुनिश्चित करता है कि हमारे कोड यदि बाइट धारा अमान्य है croak होगा। यह पैदावार:
201c 66 6f 75 72 20 73 63 6f 72 65 201d
या मुद्रित:
$ perl -CO -MEncode -e '$a=decode("utf-8",
"\xC3\xA2\xE2\x82\xAC\xC5\x93" .
"four score" .
"\xC3\xA2\xE2\x82\xAC\xC2\x9D");
$a=encode("cp-1252", $a, sub { chr($_[0]) });
$a=decode("utf-8", $a, 1);
print "$a\n"'
“four score”
तो मुझे लगता है कि पूरा एल्गोरिथ्म इस होना चाहिए:
- ले लो mysql से बाइट धारा। इसे $ bytestream पर असाइन करें।
- जबकि $ bytestream एक वैध UTF8 बाइट धारा है:
- $ अच्छा
- $ bytestream सभी ASCII (यानी, हर बाइट 0x80 कम है) है, तो तोड़ने के लिए $ bytestream के वर्तमान मूल्य निरुपित इनमें से "जबकि ... वैध utf8" लूप।
- "डेमंगल ($ bytestream)" के परिणामस्वरूप $ bytestream सेट करें, जहां डिमंगल नीचे दिया गया है। यह दिनचर्या cp1252-to-utf8 कनवर्टर को कम करता है जो हमें लगता है कि इस डेटा का सामना करना पड़ा है।
- डेटाबेस में $ अच्छा वापस रखें यदि यह अनिश्चित नहीं है। अगर $ अच्छा कभी सौंपा नहीं गया था, तो मान लें कि $ bytestream एक cp1252 बाइट स्ट्रीम था और इसे utf8 में परिवर्तित कर दिया गया था। (बेशक, ऑप्टिमाइज़ करें और ऐसा न करें अगर चरण 2 में लूप कुछ भी नहीं बदले, आदि)
।
sub demangle {
my($a) = shift;
eval { # the non-string form of eval just traps exceptions
# so that we return undef on exception
local $SIG{__WARN__} = sub {}; # No warning messages
$a = decode("utf-8", $a, 1);
encode("cp-1252", $a, sub {$_[0] <= 255 or die $_[0]; chr($_[0])});
}
}
यह धारणा है कि यह वास्तव में एक स्ट्रिंग है जो है सब-ASCII एक वैध UTF-8 बाइट धारा होने के लिए नहीं है जब तक कि यह वास्तव में UTF-8 है के लिए बहुत ही दुर्लभ है पर आधारित है। यही है, यह ऐसी चीज नहीं है जो गलती से होती है।
संपादित जोड़ने के लिए:
ध्यान दें कि यह तकनीक अपने "बॉब के" उदाहरण के साथ बहुत ज्यादा मदद नहीं करता है, दुर्भाग्य से। मुझे लगता है कि वह स्ट्रिंग सीपी 1252-टू-यूटीएफ 8 रूपांतरण के दो राउंड से भी गुजरती है, लेकिन दुर्भाग्यवश कुछ भ्रष्टाचार भी था। उसी तकनीक का उपयोग करते हुए पहले की तरह, हम पहले UTF8 के रूप में बाइट क्रम पढ़ सकते हैं और यूनिकोड केरेक्टर सन्दर्भ के अनुक्रम को देखो हम पाते हैं:
$ perl -CO -MEncode -e '$a=decode("utf-8",
"bob\xC3\xAF\xC2\xBF\xC2\xBDs");
for $c (split(//,$a)) {printf "%x ",ord($c);}' | fmt
यह पैदावार:
62 6f 62 ef bf bd 73
अब, यह सिर्फ इतना होता है कि तीन बाइट्स ef bf bd के लिए, यूनिकोड और cp1252 सहमत हैं। तो cp1252 में यूनिकोड कोड पॉइंट्स के इस अनुक्रम का प्रतिनिधित्व करना केवल है:
62 6f 62 ef bf bd 73
यह संख्याओं का एक ही अनुक्रम है। अब, यह एक वैध UTF-8 बाइट धारा वास्तव में है, लेकिन क्या यह आपको हैरान कर सकते करने के लिए डीकोड:
$ perl -CO -MEncode -e '$a=decode("utf-8",
"bob\xC3\xAF\xC2\xBF\xC2\xBDs");
$a=encode("cp-1252", $a, sub { chr(shift) });
$a=decode("utf-8", $a, 1);
for $c (split(//,$a)) {printf "%x ",ord($c);}' | fmt
62 6f 62 fffd 73
यही है, UTF-8 बाइट धारा है, हालांकि एक वैध UTF-8 बाइट धारा, एन्कोडेड चरित्र 0xFFFD, जिसे आमतौर पर "अप्रचलित चरित्र" के लिए उपयोग किया जाता है। मुझे संदेह है कि यहां क्या हुआ यह है कि पहले * -to-utf8 परिवर्तन ने एक ऐसा चरित्र देखा जो इसे पहचान नहीं पाया और इसे "अप्रचलित" के साथ बदल दिया। फिर मूल चरित्र को प्रोग्रामेटिक रूप से पुनर्प्राप्त करने का कोई तरीका नहीं है।
एक परिणाम यह है कि आप यह पता नहीं लगा सकते कि बाइट्स की धारा वैध यूटीएफ 8 (ऊपर दिए गए एल्गोरिदम के लिए आवश्यक है) बस एक डिकोड करके और फिर 0xFFFD की तलाश कर रही है। इसके बजाए, आपको इस तरह कुछ उपयोग करना चाहिए:
sub is_valid_utf8 {
defined(eval { decode("utf-8", $_[0], 1) })
}