मुझे बिल्कुल यकीन नहीं है कि इस सवाल को वास्तव में कैसे पूछना है, और मैं कोई जवाब खोजने के करीब नहीं हूं, इसलिए मुझे उम्मीद है कि कोई मेरी मदद कर सकता है।एकाधिक वर्ण एन्कोडिंग युक्त एक स्ट्रिंग के साथ काम करना
मैं एक पायथन ऐप लिख रहा हूं जो रिमोट होस्ट से जुड़ता है और बैक डेटा वापस प्राप्त करता है, जिसे मैं पायथन के अंतर्निर्मित संरचना मॉड्यूल का उपयोग करके अनपैक करता हूं। मेरी समस्या तारों के साथ है, क्योंकि उनमें कई वर्ण एन्कोडिंग शामिल हैं। यहां इस तरह के एक स्ट्रिंग का एक उदाहरण है:
"^ LThis एक उदाहरण कई^Jcharacter एन्कोडिंग के साथ gstring है ^"
कहाँ अलग एन्कोडिंग शुरू होता है और समाप्त होता है विशेष भागने वर्ण का उपयोग कर चिह्नित है:
- ^एल - लेटिन 1
- ^ई - मध्य यूरोप
- ^टी - तुर्की
- ^बी - बाल्टिक
- ^जम्मू - जापानी
- ^सी - सिरिलिक
- ^जी - ग्रीक
और इसी तरह ... मैं एक तरह से यूनिकोड में स्ट्रिंग की इस तरह बदलने की आवश्यकता है, लेकिन मैं वास्तव में नहीं हूँ सुनिश्चित करें कि यह कैसे करें। मैंने पाइथन के कोडेक्स और string.encode/decode पर पढ़ा है, लेकिन मैं वास्तव में बुद्धिमान नहीं हूं। मुझे भी इसका जिक्र करना चाहिए, कि मेजबान द्वारा तारों को कैसे आउटपुट किया जाता है, इस पर मेरा कोई नियंत्रण नहीं है।
मुझे आशा है कि कोई इस पर शुरुआत करने के तरीके में मेरी सहायता कर सकता है।
अपने पार्सर किसी भी त्रुटि लेकिन व्यर्थ एन्कोडिंग के साथ फेंक करता है या आप एक वैध अजगर तार के साथ छोड़ दिया जाता है,? यदि हां, तो चीजें तय की जा सकती हैं। कृपया एक उदाहरण स्ट्रिंग प्रदान करें। – DzinX
मेरा मतलब ऊपर की तुलना में अन्य उदाहरण है, क्योंकि उपर्युक्त उदाहरण में केवल ASCII वर्ण हैं। – DzinX