2011-01-30 12 views
5

मुझे http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic में परिभाषित संपत्ति Alphabetic के साथ यूनिकोड वर्णों की श्रेणियों की सूची की आवश्यकता है। हालांकि, मैं उन्हें यूनिकोड कैरेक्टर डाटाबेस में नहीं ढूंढ सकता, इससे कोई फर्क नहीं पड़ता कि मैं उनके लिए कैसे खोज करता हूं। क्या कोई निर्दिष्ट यूनिकोड गुण वाले वर्णों के लिए उनकी सूची या सिर्फ एक खोज सुविधा प्रदान कर सकता है?यूनिकोड वर्णमाला वर्णों की सूची

+0

यदि आप मेरा जवाब देखते हैं, तो मेरे पास आपके अनुरोध के अनुसार आपको निर्दिष्ट यूनिकोड गुणों वाले वर्णों के लिए एक खोज सुविधा प्रदान की गई है [मेरी यूनिर्स स्क्रिप्ट ] (http://training.perl.com/scripts/unichars)। का आनंद लें! – tchrist

उत्तर

2

व्युत्पन्न कोर गुणों को अन्य गुणों से गणना की जा सकती है। से उत्पन्न:

वर्णमाला संपत्ति के रूप में परिभाषित किया गया है लू + करूँगा + लेफ्टिनेंट + एल एम + लो + Nl + Other_Alphabetic

तो, आप लू, II, लेफ्टिनेंट, एल एम, लो के सभी पात्रों पर ले, एनएल, और अन्य_एल्फाबेटिक संपत्ति वाले सभी पात्रों में आपके पास वर्णमाला वर्ण होंगे। अपने स्रोत से

2

प्रशस्ति पत्र: Generated from: Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic

ये Abbrevations here समझाया जा लगते हैं।

11

यूनिकोड कैरेक्टर डेटाबेस में वितरण में सभी टेक्स्ट फ़ाइलें शामिल हैं। यह सिर्फ एक ही फाइल नहीं है क्योंकि यह एक बार बहुत पहले था।

वर्णमाला संपत्ति एक व्युत्पन्न संपत्ति है।

आप वास्तव में इसके लिए कोड बिंदु श्रेणियों का उपयोग नहीं करना चाहते हैं। आप संपत्ति ठीक से का उपयोग करना चाहते हैं। ऐसा इसलिए है क्योंकि उनमें से बहुत सारे हैं। unichars script का उपयोग करना, हम सीखते हैं वहाँ हजार दस से अधिक सिर्फ बेसिक बहुभाषी विमान में अकेले हैं कि नहीं गिनती हान या हंगुल:

$ unichars '\p{Alphabetic}' | wc -l 
    10052 

अगर हम अन्य 16 सूक्ष्म विमानों में शामिल हैं, अब हम चौदह पर हैं हजार:

$ unichars -a '\p{Alphabetic}' | wc -l 
    14736 

और यदि हम हान और हंगुल, जो वास्तव में वर्णमाला संपत्ति करता है, हम सिर्फ छत एक सौ हजारों कोड अंक के विस्फोट से उड़ा दिया शामिल हैं:

$ unichars -ua '\p{Alphabetic}' | wc -l 
    101539 

मुझे आशा है कि आप देख सकते हैं कि आप कोड बिंदु श्रेणियों का उपयोग करके इन्हें विशेष रूप से गणना करना चाहते हैं। नीचे वह सड़क पागलपन है।

वैसे, यदि आप पाते हैं unichars script उपयोगी, आप हो सकता है भी और शायद uninames script की तरह।

+1

मुझे आपकी स्क्रिप्ट पसंद है! वे [SO प्रश्न] को हल करने के लिए बहुत उपयोगी होंगे (http://stackoverflow.com/questions/6246651/generate-uri-friendly-unicode-code-points-from-integer-counter) मेरे पास था। उन्हें बनाने के लिए बहुत बहुत धन्यवाद। प्रश्न: जब मैंने उपरोक्त अंतिम आदेश ('unichars -ua '\ p {Alphabetic}' | wc -l') चलाया, तो मुझे 101539 की बजाय 94332 लाइनें मिलीं। ऐसा कोई कारण क्यों हो सकता है? –

+1

@Abe: मूर्ख कारण आप अभी तक यूनिकोड 6.0.0 नहीं चला रहे हैं।पर्ल का क्या संस्करण आप चल रहे हैं? 'कोरलिस्ट -एक यूनिकोड' आपको यूनिकोड संस्करणों के साथ पर्ल संस्करणों की जोड़ी दिखाएगा। बीटीडब्लू, अब मेरे रास्ते में और अधिक के साथ, मेरे [यूनिकोड टूलचेस्ट] (http://training.perl.com/scripts/) में है। – tchrist

+0

आह हाँ, मैं अभी भी पर्ल 5 चला रहा हूं। मैं निश्चित रूप से पर्ल को अपग्रेड करूँगा और अपने नए टूल्स देख सकता हूं। धन्यवाद! –

1

मुझे UniView वेब एप्लिकेशन मिला जो एक अच्छा खोज इंटरफ़ेस प्रदान करता है। पत्र संपत्ति (स्थानीय अनचेक के साथ) के लिए खोज 14723 परिणाम देता है ...

+1

पत्र संपत्ति वर्णमाला संपत्ति के समान नहीं है !!!! यूनिकोड 6.0.0 में, वर्णमाला संपत्ति के साथ 101539 कोड बिंदु हैं लेकिन पत्र संपत्ति के साथ केवल 100520, एक हजार वर्णों का अंतर है। बीटीडब्ल्यू, आपका 14k उत्तर परिमाण के क्रम से बंद है। – tchrist

+0

आप सही हैं। बीटीडब्लू, मुझे लगता है कि यूनीवीव उपकरण हान और हंगुल को खाते में नहीं लेता है। – thSoft

संबंधित मुद्दे