से लहजे को हटाकर मैं एक उच्चारण से असंवेदनशील खोज शुरू करने के लिए एक स्ट्रिंग से उच्चारण और अधिक आम तौर पर diacritic अंक को हटाना चाहता हूं। यूनिकोड वर्ण वर्गों पर कुछ पढ़ने के आधार पर, मैं इस के साथ आ गया है:क्यूस्ट्रिंग
QString unaccent(const QString s)
{
QString s2 = s.normalized(QString::NormalizationForm_D);
QString out;
for (int i=0,j=s2.length(); i<j; i++)
{
// strip diacritic marks
if (s2.at(i).category()!=QChar::Mark_NonSpacing &&
s2.at(i).category()!=QChar::Mark_SpacingCombining)
{
out.append(s2.at(i));
}
}
return out;
}
यह लैटिन-आधारित भाषाओं के लिए काफी अच्छा काम करने के लिए प्रकट होता है, लेकिन मैं अन्य अक्षर पर अपनी पर्याप्तता के बारे में सोच रहा हूँ: अरबी , सिरिलिक, सीजेके ... जो कि इनकी सांस्कृतिक समझ की कमी के कारण मैं परीक्षण नहीं कर सकता।
विशेष रूप से मैं चाहता हूँ मैं जानता हूँ कि चाहते हैं:
- क्या यूनिकोड सामान्य रूप से इस समस्या के लिए बेहतर अनुकूल है:
NormalizationForm_KD
याNormalizationForm_D
? Mark_NonSpacing
औरMark_SpacingCombining
श्रेणियों से संबंधित वर्णों को निकालने के लिए पर्याप्त है या इसमें अधिक श्रेणियां शामिल होनी चाहिए?- क्या उपरोक्त कोड में अन्य सुधार हैं जो इसे सभी भाषाओं के लिए यथासंभव सर्वोत्तम काम करेंगे?
आप जिस तरह से भी 'QChar :: Mark_Enclosing' –
NFD का सवाल चाहते बनाम NFKD कुछ आप आप क्या करने की कोशिश कर रहे हैं के आधार पर तय की जरूरत है। यह तय करने के लिए कि क्या आप उस सीमा को किसी चरित्र को विघटित करना चाहते हैं, [यूनिकोड सामान्यीकरण फ़ॉर्म] [1] के "चित्र 6" देखें। मुझे संदेह है कि आप एनएफडी चाहते हैं। –
@ डेव: मुझे लगता है [1] था: http://www.unicode.org/reports/tr15/ –