हिब्रू "niqqud" को हटाने आर

का उपयोग कर niqqud (विशेषक स्वरों का प्रतिनिधित्व करते हैं या हिब्रू वर्णमाला के अक्षरों के वैकल्पिक उच्चारण के बीच भेद करने के लिए इस्तेमाल संकेत) को हटाने के लिए संघर्ष कर रहा है। मैं उदाहरण के लिए इस चर है: sample1 < - "הֻסְמַק"हिब्रू "niqqud" को हटाने आर

और मुझे पत्र नीचे संकेत दूर करने के लिए प्रभावी तरीका नहीं मिल रहा।

, स्ट्रिंगर की कोशिश की str_replace_all(sample1, "[^[:alnum:]]", "") साथ की कोशिश की gsub('[:punct:]','',sample1)

कोई सफलता

... :-( किसी भी विचार?

स्रोत

2015-09-17 Dmitry Leykin

[my gsub उदाहरण] (http://ideone.com/1IxAeA) पर एक नज़र डालें, क्या यह आपके लिए काम करता है? –

@stribizhev - बहुत बहुत धन्यवाद! यह एक आकर्षण –

की तरह काम करता है आपको टैग [टैग: हेब्रू] का उपयोग करना चाहिए! भी [टैग: यूनिकोड] – smci

आप Perl- जैसे regex के साथ विशेषक मैच के लिए \p{M} यूनिकोड श्रेणी का उपयोग कर सकते हैं, और gsub एक में उन सभी को इस तरह जाना:

sample1 <- "הֻסְמַק" 
gsub("\\p{M}", "", sample1, perl=T)

परिणाम: [1] "הסמק"

demo

\p{M} या \p{Mark} देखें: एक चरित्र जोड़ा जा करने का इरादा एक और चरित्र के साथ (जैसे उच्चारण, उमौल, संलग्न बक्से, आदि)।

Regular-Expressions.info, "Unicode Categories" पर और देखें।

स्रोत

2015-09-17 19:50:57

हिब्रू "niqqud" को हटाने आर

उत्तर

संबंधित मुद्दे