मैंने इन सभी बहु-बाइट चरित्र सामग्री को अधिकतर अनदेखा करने में कामयाब रहा है, लेकिन अब मुझे कुछ यूआई काम करने की ज़रूरत है और मुझे पता है कि इस क्षेत्र में मेरी अज्ञानता मेरे साथ पकड़ने जा रही है! क्या कोई मुझे कुछ अनुच्छेदों या उससे कम में समझा सकता है जो मुझे जानने की जरूरत है ताकि मैं अपने आवेदनों को स्थानीयकृत कर सकूं? मुझे किस प्रकार का उपयोग करना चाहिए (मैं नेट और सी/सी ++ दोनों का उपयोग करता हूं, और मुझे यूनिक्स और विंडोज दोनों के लिए यह जवाब चाहिए)।यूटीएफ 8 बनाम यूटीएफ 16 बनाम चार * बनाम क्या? किसी ने मुझे यह गड़बड़ समझाया!
उत्तर
बाहर चेक योएल Spolsky के The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
संपादित 20,140,523: इसके अलावा, यूट्यूब पर टॉम स्कॉट द्वारा Characters, Symbols and the Unicode Miracle देखना - यह सिर्फ के तहत दस मिनट है, और प्रतिभाशाली का एक अद्भुत विवरण 'हैक' है कि यूटीएफ -8
एक वर्ण एन्कोडिंग में कोड के अनुक्रम होते हैं जो प्रत्येक किसी दिए गए चरित्र सेट से प्रतीक को देखते हैं। कृपया Wikipedia on character encoding पर यह अच्छा लेख देखें।
UTF8 (UCS) प्रत्येक प्रतीक के लिए 1 से 4 बाइट का उपयोग करता है।
- एक एकल-बाइट वर्ण का सबसे महत्वपूर्ण बिट हमेशा 0.
- एक बहु की पहली बाइट के सबसे महत्वपूर्ण बिट है: Wikipedia कैसे मल्टी-बाइट खड़ा होनेवाला काम करता है की एक अच्छी ठहरनेवाला देता है -byte अनुक्रम अनुक्रम की लंबाई निर्धारित करें। दो सबसे बाइट अनुक्रमों के लिए ये सबसे महत्वपूर्ण बिट्स 110 हैं; तीन-बाइट अनुक्रमों के लिए 1110, और इसी तरह।
- बहु-बाइट अनुक्रम में शेष बाइट्स में 10 सबसे अधिक महत्वपूर्ण बिट्स हैं।
- एक यूटीएफ -8 स्ट्रीम में न तो बाइट एफई और न ही एफएफ शामिल है। यह सुनिश्चित करें कि एक UTF-8 धारा कभी नहीं एक UTF-16 धारा U + FEFF (बाइट क्रम के निशान) के साथ शुरू
पृष्ठ आपको यह भी फायदे के बीच एक महान तुलना से पता चलता तरह लग रहा है बनाता है और प्रत्येक चरित्र एन्कोडिंग प्रकार के नुकसान।
प्रत्येक प्रतीक के लिए 4 बाइट के लिए 2 बाइट्स का उपयोग करता है।
प्रत्येक प्रतीक के लिए हमेशा 4 बाइट का उपयोग करता है।
char का मतलब केवल डेटा का बाइट है और वास्तविक एन्कोडिंग नहीं है। यह यूटीएफ 8/यूटीएफ 16/एएससीआई के समान नहीं है। एक char * सूचक किसी भी प्रकार के डेटा और किसी भी एन्कोडिंग का संदर्भ ले सकता है।
एसटीएल:
दोनों एसटीएल के std :: wstring और std :: स्ट्रिंग UTF-8 और UTF-16 की तरह चर लंबाई वर्ण एन्कोडिंग के लिए नहीं बनाया गया है।
लागू करना सीखें:
iconv पुस्तकालय पर एक नजर डालें।
- tbray.org's Characters vs. Bytes
- IANA character sets
- www.cs.tut.fi's A tutorial on code issues : iconv एक शक्तिशाली वर्ण एन्कोडिंग रूपांतरण libxml (Gnome की एक्सएमएल सी पार्सर)
- The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) (पहले @Dylan Beattie द्वारा उल्लिखित)
वर्ण एन्कोडिंग पर अन्य महान संसाधनों के रूप में ऐसी परियोजनाओं के द्वारा प्रयोग किया पुस्तकालय है
ब्रायन, यह गलत है। यूटीएफ -16 2 से 4 बाइट्स का उपयोग करता है। केवल यूटीएफ -32 में बाइट्स की निश्चित चौड़ाई है (= 4)। अधिकांश यूटीएफ -16 कार्यान्वयन बस बीएमपी से आगे नहीं बढ़ते हैं और इस प्रकार केवल सीमित चरित्र सेट का समर्थन करते हैं। –
धन्यवाद Konrad, मैंने अपना विवरण अपडेट किया। –
व्यक्तिगत रूप से, मैं एक बग होने के लिए यूटीएफ 16 डेटा को इंगित करने के लिए एक char * का उपयोग करने पर विचार करता हूं। –
विभिन्न यूटीएफ मानकों "कोड बिंदु" को एन्कोड करने के तरीके हैं। एक कोडपॉइंट यूनिकोड चार्टेटर सेट में सूचकांक है।
एक और एन्कोडिंग यूसीएस 2 है जो हमेशा 16 बिट है, और इस प्रकार पूर्ण यूनिकोड रेंज का समर्थन नहीं करता है।
जानना अच्छा है कि एक कोडपॉइंट एक वर्ण के बराबर नहीं है। उदाहरण के लिए å जैसे चरित्र को कोड बिंदु के रूप में या दो कोड बिंदुओं के रूप में दोनों को अंगूठी के लिए एक के रूप में दर्शाया जा सकता है।
दो यूनिकोड स्ट्रिंग की तुलना में तुलना करने से पहले कैननिकल प्रतिनिधित्व प्राप्त करने के लिए सामान्यीकरण की आवश्यकता होती है।
फोंट के साथ भी समस्या है। फोंट को संभालने के दो तरीके हैं। या तो आप आवश्यक सभी यूनिकोड वर्णों के लिए ग्लाइफ के साथ एक विशाल फ़ॉन्ट का उपयोग करें (मुझे लगता है कि विंडोज के हाल के संस्करण एक या दो ऐसे फोंट के साथ आता है)। या आप यूनिकोड मानक के सबसेट्स को समर्पित विभिन्न फ़ॉन्ट्स से ग्लाइफ को संयोजित करने में सक्षम कुछ लाइब्रेरी का उपयोग करते हैं।
Received wisdom बताता है कि स्पॉल्स्की का लेख कुछ महत्वपूर्ण बिंदुओं को याद करता है।
यह लेख और पूरी होने के रूप में सिफारिश की है: Unicode Basics
विशेष रूप से बाद के वर्ण एन्कोडिंग रूपों और यूनिकोड के लिए योजनाओं के एक सिंहावलोकन देता है: The Unicode® Standard: A Technical Introduction
यह लेख भी एक अच्छा परिचय है।
- 1. यूटीएफ -8 बनाम लैटिन 1 mysql, यूटीएफ -8
- 2. जावास्क्रिप्ट तार - यूटीएफ -16 बनाम यूसीएस -2?
- 3. मुझे क्या उपयोग करना चाहिए? यूटीएफ 8 या यूटीएफ 16?
- 4. एक यूटीएफ -8 बनाम सीपीपी केस
- 5. आईएसओ -885 9 -1 बनाम यूटीएफ -8?
- 6. यूनिकोडस्ट्रिंग से चार * (यूटीएफ -8)
- 7. पाइथन/Django में यूनिकोड बनाम यूटीएफ -8 भ्रम?
- 8. यूटीएफ -16 यूटीएफ -8 रूपांतरण (विंडोज़ में स्क्रिप्टिंग के लिए)
- 9. यूटीएफ -8 विंडोज के लिए यूटीएफ -16 एपीआई रैपर पुस्तकालयों?
- 10. यूटीएफ -8 और यूटीएफ -16 के बीच अंतर?
- 11. आईएसओ -885 9 -1 बनाम यूटीएफ -8 एंड्रॉइड
- 12. अरबी कैरेक्टर एन्कोडिंग समस्या: यूटीएफ -8 बनाम विंडोज-1256
- 13. XslCompiledTransform यूटीएफ -16 एन्कोडिंग
- 14. मुझे यह "[\\? &] V = ([^ & #] *)" इंटरनेट पर किसी ने मुझे यह समझाया
- 15. यूटीएफ -8
- 16. यूटीएफ -8
- 17. यूटीएफ -8
- 18. क्या यूटीएफ 8
- 19. यूटीएफ -8
- 20. यूटीएफ -8
- 21. यूटीएफ -8
- 22. यूटीएफ -8
- 23. यूटीएफ -8
- 24. यूटीएफ -8
- 25. पायथन यूटीएफ -16 सीएसवी रीडर
- 26. यूटीएफ -16 का क्या मतलब है?
- 27. utf-8 बनाम लैटिन 1
- 28. यूटीएफ -8 से यूटीएफ -16 में एचटीएमएल एन्कोडिंग स्विच करने में क्या गलत हो सकता है?
- 29. यूटीएफ -8 स्ट्रिंग
- 30. जेबॉस एन्कोडिंग यूटीएफ 8
हेहे, जब मैंने शीर्षक पढ़ा तो यह बिल्कुल सही लेख था जो मेरे दिमाग में आया था। – VVS
मैंने इसे पहले नहीं पढ़ा था ... अन्य तरीकों के माध्यम से मेरा i18n प्रशिक्षण मिला। एक हानिकारक और विशाल शैक्षिक लेख के लिए लिंक – Akrikos
+1 के लिए धन्यवाद। –