2015-09-17 10 views
5

का उपयोग कर niqqud (विशेषक स्वरों का प्रतिनिधित्व करते हैं या हिब्रू वर्णमाला के अक्षरों के वैकल्पिक उच्चारण के बीच भेद करने के लिए इस्तेमाल संकेत) को हटाने के लिए संघर्ष कर रहा है। मैं उदाहरण के लिए इस चर है: sample1 < - "הֻסְמַק"हिब्रू "niqqud" को हटाने आर

और मुझे पत्र नीचे संकेत दूर करने के लिए प्रभावी तरीका नहीं मिल रहा।

, स्ट्रिंगर की कोशिश की str_replace_all(sample1, "[^[:alnum:]]", "") साथ की कोशिश की gsub('[:punct:]','',sample1)

कोई सफलता

... :-( किसी भी विचार?

+1

[my gsub उदाहरण] (http://ideone.com/1IxAeA) पर एक नज़र डालें, क्या यह आपके लिए काम करता है? –

+0

@stribizhev - बहुत बहुत धन्यवाद! यह एक आकर्षण –

+0

की तरह काम करता है आपको टैग [टैग: हेब्रू] का उपयोग करना चाहिए! भी [टैग: यूनिकोड] – smci

उत्तर

2

आप Perl- जैसे regex के साथ विशेषक मैच के लिए \p{M} यूनिकोड श्रेणी का उपयोग कर सकते हैं, और gsub एक में उन सभी को इस तरह जाना:

sample1 <- "הֻסְמַק" 
gsub("\\p{M}", "", sample1, perl=T) 

परिणाम: [1] "הסמק"

demo

\p{M} या \p{Mark} देखें: एक चरित्र जोड़ा जा करने का इरादा एक और चरित्र के साथ (जैसे उच्चारण, उमौल, संलग्न बक्से, आदि)।

Regular-Expressions.info, "Unicode Categories" पर और देखें।

संबंधित मुद्दे