मैं अलग-अलग वर्णों के साथ व्हाइट्स का उपयोग करके विशेष वर्णों के साथ एक वाक्य वाली सही स्ट्रिंग को कैसे विभाजित कर सकता हूं? रेगेक्स स्प्लिट विधि का उपयोग करके मैं वांछित परिणाम प्राप्त नहीं कर सकता।पायथन, रेगेक्स स्प्लिट और विशेष चरित्र
उदाहरण कोड:
# -*- coding: utf-8 -*-
import re
s="La felicità è tutto" # "The happiness is everything" in italian
l=re.compile("(\W)").split(s)
print " s> "+s
print " wordlist> "+str(l)
for i in l:
print " word> "+i
उत्पादन होता है:
s> La felicità è tutto
wordlist> ['La', ' ', 'felicit', '\xc3', '', '\xa0', '', ' ', '', '\xc3', '', '\xa8', '', ' ', 'tutto']
word> La
word>
word> felicit
word> Ã
word>
word> ?
word>
word>
word>
word> Ã
word>
word> ?
word>
word>
word> tutto
जब मैं की तरह एक उत्पादन के लिए देख रहा हूँ:
s> La felicità è tutto
wordlist> ['La', ' ', 'felicità', ' ', 'è', ' ', 'tutto']
word> La
word>
word> felicità
word>
word> è
word>
word> tutto
उल्लेखनीय है कि एस एक स्ट्रिंग है जिसे किसी अन्य विधि से वापस किया जाता है, इसलिए मैं
01 जैसे एन्कोडिंग को मजबूर नहीं कर सकताs=u"La felicità è tutto"
यूनिकोड और reg-ex के आधिकारिक पायथन दस्तावेज़ पर मुझे एक संतोषजनक स्पष्टीकरण नहीं मिला है।
धन्यवाद।
Alessandro
आप गैर-शब्द वर्णों पर विभाजित हैं, जिसमें न केवल रिक्त स्थान शामिल हैं, बल्कि (स्पष्ट रूप से) उच्चारण वर्ण भी हैं। – mpen