में पाइप ("|") से बचने के लिए मुझे शब्दों और अंत अंक (कुछ प्रकार के विराम चिह्न) पर विभाजित करने की आवश्यकता है। अजीब पाइप ("|") एक अंतिम निशान के रूप में गिना जा सकता है। मेरे पास कोड है जो अंत अंक पर शब्द जब तक कि मैं पाइप जोड़ने की कोशिश नहीं करता। पाइप जोड़ने से प्रत्येक चरित्र strsplit
बनाता है। इससे बचने और त्रुटि से बचें। मैं नियमित अभिव्यक्ति को पाइप int कैसे शामिल कर सकता हूं?एक रेगेक्स
x <- "I like the dog|."
strsplit(x, "[[:space:]]|(?=[.!?*-])", perl=TRUE)
#[[1]]
#[1] "I" "like" "the" "dog|" "."
strsplit(x, "[[:space:]]|(?=[.!?*-\|])", perl=TRUE)
#Error: '\|' is an unrecognized escape in character string starting "[[:space:]]|(?=[.!?*-\|"
परिणाम मैं चाहता हूँ:
#[[1]]
#[1] "I" "like" "the" "dog" "|" "." #pipe is an element
मैं हमेशा क्योंकि आप अन्य भाषाओं से regexers हो और यद्यपि जवाब समान हैं वे ओवरलैप नहीं आर regex सवाल पर regex टैग डाल करने के लिए संकोच कर रहा हूँ। –