अजगर - यूनिकोड ASCII रूपांतरण

को मैं डेटा खोने के बिना ASCII के लिए निम्न यूनिकोड में परिवर्तित करने में असमर्थ हूँ:अजगर - यूनिकोड ASCII रूपांतरण

u'ABRA\xc3O JOS\xc9'

मैं encode और decode की कोशिश की और वे इसे नहीं करेंगे।

क्या किसी के पास कोई सुझाव है?

स्रोत

2013-10-22 Adriano Almeida

क्या आपको वास्तव में ASCII, या बस "कुछ 8-बिट वर्ण सेट" या "मेरे प्लेटफ़ॉर्म के डिफ़ॉल्ट 8-बिट वर्ण सेट" या ऐसा कुछ करने के लिए एन्कोड करने की आवश्यकता है? – abarnert

यह ASCII था। डेटाबेस कनेक्शन ASCII के रूप में सेट किया गया था। –

संदर्भ के लिए, यूनिकोड में स्ट्रिंग _ABRAÃO JOSÉ_ – nealmcb

यूनिकोड वर्ण u'\xce0' और u'\xc9' कोई संबंधित ASCII मान नहीं है। इसलिए, यदि आप डेटा खोना नहीं चाहते हैं, तो आपको उस डेटा को किसी भी तरह से एन्कोड करना होगा जो ASCII के रूप में मान्य है। विकल्प शामिल हैं:

>>> print s.encode('ascii', errors='backslashreplace') 
ABRA\xc3O JOS\xc9 
>>> print s.encode('ascii', errors='xmlcharrefreplace') 
ABRA&#195;O JOS&#201; 
>>> print s.encode('unicode-escape') 
ABRA\xc3O JOS\xc9 
>>> print s.encode('punycode') 
ABRAO JOS-jta5e

इन सभी के ASCII तार कर रहे हैं, और अपने मूल यूनिकोड स्ट्रिंग से जानकारी के सभी शामिल (ताकि वे सभी डेटा की हानि के बिना ही उल्टा हो सकता है), लेकिन उनमें से कोई भी सब हैं कि सुंदर के लिए एक अंतिम उपयोगकर्ता (और उनमें से कोई भी decode('ascii') द्वारा उलट किया जा सकता है)।

str.encode, Python Specific Encodings, और Unicode HOWTO अधिक जानकारी के लिए देखें।

एक तरफ ध्यान दें, जैसा कि जब कुछ लोग कहते हैं "ASCII", वे वास्तव में मतलब यह नहीं है "ASCII" बल्कि "किसी भी 8 बिट वर्ण सेट ASCII का सुपरसेट है कि" या "कुछ विशेष 8- थोड़ा चरित्र सेट जो मुझे दिमाग में है "। तो यह है कि आप क्या मतलब है, समाधान सही 8 बिट वर्ण सेट करने के लिए सांकेतिक शब्दों में बदलना करने के लिए है:

>>> s.encode('utf-8') 
'ABRA\xc3\x83O JOS\xc3\x89' 
>>> s.encode('cp1252') 
'ABRA\xc3O JOS\xc9' 
>>> s.encode('iso-8859-15') 
'ABRA\xc3O JOS\xc9'

कठिन हिस्सा जानना है जो वर्ण सेट आप का मतलब है। यदि आप दोनों कोड लिख रहे हैं जो 8-बिट स्ट्रिंग्स और कोड का उपभोग करते हैं, और आप किसी भी बेहतर तरीके से नहीं जानते हैं, तो आपका मतलब यूटीएफ -8 था। यदि कोड 8-बिट तारों का उपभोग करता है, तो कहें, open फ़ंक्शन या एक वेब ब्राउज़र जिसे आप किसी पृष्ठ पर या किसी अन्य चीज़ की सेवा कर रहे हैं, चीजें अधिक जटिल हैं, और बहुत अधिक जानकारी के बिना कोई आसान जवाब नहीं है।

स्रोत

2013-10-22 20:13:58 abarnert

बहुत बढ़िया उत्तर की तरह दिखती है। –

धन्यवाद। इससे मदद मिली। मैंने पहले से ही xmlcharrefreplace किया था लेकिन जैसा कि मैं ओरेकल डीबी को लिख रहा था, उसने मेरी स्ट्रिंग में कचरा लगाया। मैंने एनएलएस_एलएएनजी परम को बदलने के मुद्दे को हल किया। 'os.environ [" NLS_LANG "] =" AMERICAN_AMERICA.WE8ISO8859P1 "' और फिर "लैटिन -1" –

@AdrianoAlmeida में कनवर्ट करना: ध्यान दें कि, हालांकि लैटिन -1/आईएसओ -885 9 -1 आपके दोनों मौजूदा पात्रों को संभालता है, यह यूनिकोड के अधिकांश संभाल नहीं करता है। इसलिए, जैसे ही कोई आपको रूसी या चीनी नाम देने की कोशिश करता है, आपको 'यूनिकोड एरर' मिलेगा। यदि आप इसके बजाय यूटीएफ -8 का उपयोग करने के लिए ओरेकल सेट कर सकते हैं, तो आप ऐसी भविष्य की किसी भी समस्या से बचेंगे। यदि आप नहीं कर सकते ... बस इसे ध्यान में रखें, और तदनुसार अपना परीक्षण तैयार करें। जीत के लिए – abarnert

अजगर - यूनिकोड ASCII रूपांतरण

उत्तर

संबंधित मुद्दे