मैं स्वचालित भाषा का पता लगाने के लिए एक ह्युरिस्टिक विकसित कर रहा हूं और यह जानना चाहता हूं कि दिए गए पत्र में विशिष्टताएं हैं (जैसे "Ðàäèî Êóëüòóðà" - सभी अक्षरों में विशिष्टता है)। यदि संभव हो तो मैं डायक्रिटिक के प्रकार को भी प्राप्त कर सकता हूं।कैसे जांचें कि यूनिकोड चरित्र में नैतिकता है या नहीं?
मैंने UnicodeCategory
enum के माध्यम से ब्राउज़ किया लेकिन मुझे कुछ भी नहीं मिला जो मुझे यहां मदद कर सकता था।
पत्र eth (Ð) में कोई विशिष्ट नहीं है। यूनिकोड में, यह एक मूल चरित्र है; स्ट्रोक को एक विशिष्ट के रूप में नहीं माना जाता है। इस प्रकार आप अपने लक्ष्य को सुधारना चाहते हैं (और संभवतः यह बताएं कि यह किस विशिष्ट समस्या को हल करेगा, क्योंकि बेहतर दृष्टिकोण हो सकते हैं)। –
विघटन करना आखिरी चीज है जिसे आप करना चाहते हैं। एक विशिष्ट diacritic के साथ एक विशिष्ट पत्र का संयोजन भाषा के लिए एक मजबूत चयनकर्ता है। बस आवृत्ति तालिकाओं को सामने बनाओ। लेकिन ऐसी कई भाषाएं हैं जो कोई विशिष्टता के बगल में उपयोग नहीं करती हैं। उदाहरण के लिए आप अंग्रेजी, डच और इतालवी के बीच का अंतर बताने में सक्षम नहीं होंगे। इसे वास्तव में काम करने के लिए आपको एक शब्दकोश की आवश्यकता होगी। भंडारण, कहें, 100 सबसे आम शब्द एक लंबा रास्ता तय करेंगे। –