आर

2015-05-30 4 views
10

में डाइक्रिटिक्स वाले वर्णों को टैबलेट करना मैं स्ट्रिंग में फ़ोन (वर्ण) घटनाओं को सारणीबद्ध करने की कोशिश कर रहा हूं, लेकिन डायक्रिटिक्स को स्वयं के पात्रों के रूप में सारणीबद्ध किया जाता है। आदर्श रूप में, मेरे पास अंतर्राष्ट्रीय फोनेटिक अल्फाबेट में एक शब्दसूची है, जिसमें उचित मात्रा में विशिष्टताएं हैं और उनमें से कई संयोजन मूल पात्र हैं। मैं यहां केवल एक शब्द के साथ एक MWE देता हूं, लेकिन यह शब्दों की सूची और संयोजन के अधिक प्रकार के साथ जाता है।आर

> word <- "n̥ana" # word constituted by 4 phones: [n̥],[a],[n],[a] 
> table(strsplit(word, "")) 
̥ a n 
1 2 2 

लेकिन वांछित परिणाम है:

a n n̥ 
2 1 1 

मैं कैसे परिणाम इस तरह की प्राप्त करने के लिए प्रबंधन कर सकते हैं?

उत्तर

7

library(stringi) 
table(stri_split_boundaries(word, type='character')) 
#a n n̥ 
#2 1 1 

या

table(strsplit(word, '(?<=\\P{Ll}|\\w)(?=\\w)', perl=TRUE)) 
#a n n̥ 
#2 1 1 
प्रयास करें