अब से आने वाले लोगों के लिए और अधिक प्रकाश फेंकना, उम्मीद है कि यह सहायक होगा।
अक्षर समूह
वहाँ उन पात्रों में से प्रत्येक भाषा और संग्रह में पात्रों हैं कि भाषा के "वर्ण सेट" के रूप में। जब कोई वर्ण एन्कोड किया जाता है तो उसने एक अद्वितीय पहचानकर्ता या संख्या कोड कोड कहा जाता है। कंप्यूटर में, इन कोड बिंदुओं को एक या अधिक बाइट्स द्वारा दर्शाया जाएगा।
वर्ण सेट के उदाहरण: ASCII (सभी अंग्रेजी अक्षर शामिल किया गया है), आईएसओ/आईईसी 646, यूनिकोड (दुनिया में सभी जीवित भाषाओं से पात्रों को शामिल किया गया)
कोड किया गया वर्ण सेट
एक कोडित वर्ण सेट एक सेट है जिसमें प्रत्येक चरित्र को एक अद्वितीय संख्या असाइन की जाती है। उस अद्वितीय संख्या को "कोड पॉइंट" कहा जाता है।
कोड किए गए चरित्र सेट को कभी-कभी कोड पेज कहा जाता है।
एन्कोडिंग
एन्कोडिंग तंत्र कुछ बाइट्स के साथ कोड अंक मैप करने के लिए इतना है कि एक चरित्र पढ़ सकते हैं और एक ही एन्कोडिंग स्कीम का उपयोग कर विभिन्न प्रणाली भर में समान रूप से लिखा जा सकता है।
एन्कोडिंग के उदाहरण: एएससीआईआईआई, यूटीएफ -8, यूटीएफ -16, यूटीएफ -32 जैसी यूनिकोड एन्कोडिंग योजनाएं।
ऊपर 3 अवधारणाओं का विस्तार
- इस पर विचार करें - देवनागरी में चरित्र 'क' चरित्र सेट एक दशमलव कोड बिंदु 2325 के जो दो बाइट्स (09 15) द्वारा प्रतिनिधित्व किया जाएगा का उपयोग करते समय है UTF-16 एन्कोडिंग
- में "ISO-8859-1" एन्कोडिंग स्कीम "ü" (यह लेकिन लैटिन वर्ण सेट में एक चरित्र कुछ भी नहीं है), जबकि में "एफसी" के हेक्सा-दशमलव मान के रूप में प्रतिनिधित्व कर रहा है "यूटीएफ -8 "यह" सी 3 बीसी "और यूटीएफ -16 में" एफई एफ "के रूप में दर्शाया गया है एफ 00 एफसी "।
- विभिन्न एन्कोडिंग योजनाएं अलग-अलग वर्णों का प्रतिनिधित्व करने के लिए एक ही कोड बिंदु का उपयोग कर सकती हैं, उदाहरण के लिए "आईएसओ -885 9 -1" (जिसे लैटिन 1 भी कहा जाता है) में अक्षर 'é' के लिए दशमलव कोड बिंदु मान 233 है। हालांकि, आईएसओ में 885 9-5, एक ही कोड बिंदु सिरिलिक चरित्र 'щ' का प्रतिनिधित्व करता है।
- दूसरी तरफ, यूनिकोड चरित्र सेट में एक कोड बिंदु वास्तव में दस्तावेज़ के लिए कौन सी एन्कोडिंग का उपयोग किया गया था, इस पर निर्भर करता है कि विभिन्न बाइट अनुक्रमों में मैप किया जा सकता है। देवनागरी चरित्र सी, कोड बिंदु 2325 (जो हेक्साडेसिमल नोटेशन में 915 है) के साथ, यूटीएफ -16 एन्कोडिंग (0 9 15), यूटीएफ -8 (ई0 ए 4 95), या चार के साथ तीन बाइट्स का उपयोग करते समय दो बाइट्स द्वारा प्रदर्शित किया जाएगा UTF-32 (00 00 09 15)
इस पोस्ट को देखें: http://stackoverflow.com/questions/13743250/meaning-of-xml-version-1-0-encoding-utf-8?lq=1 – rghome