मुझे कुशल गोफर से कुछ सलाह चाहिए।गैर-लैटिन वर्णों के साथ गोलांग रेगेक्सपी
मैं कुछ वाक्यों से शब्दों को पार्स कर रहा हूं और मेरे \w+
regexp लैटिन वर्णों के साथ ठीक काम करता है। हालांकि, यह कुछ सिरिलिक पात्रों के साथ पूरी तरह से विफल रहता है।
package main
import (
"fmt"
"regexp"
)
func get_words_from(text string) []string {
words := regexp.MustCompile("\\w+")
return words.FindAllString(text, -1)
}
func main() {
text := "One, two three!"
text2 := "Раз, два три!"
text3 := "Jedna, dva tři čtyři pět!"
fmt.Println(get_words_from(text))
fmt.Println(get_words_from(text2))
fmt.Println(get_words_from(text3))
}
यह पैदावार निम्न परिणाम:
[One two three]
[]
[Jedna dva t i ty i p t]
यह चेक के लिए अतिरिक्त अक्षरों के लिए रूसी खाली मूल्यों, और रिटर्न
यहां एक नमूना अनुप्रयोग है। मुझे नहीं पता कि इस समस्या को कैसे हल किया जाए। क्या कोई मुझे सलाह का एक टुकड़ा दे सकता है?
या शायद विराम चिह्न के बिना वाक्य को विभाजित करने का एक बेहतर तरीका है?
कोशिश 'regexp.MustCompile (" \\ p {एल} + ")' –