अजगर re
मॉड्यूल के documentation का कहना है कि जब re.UNICODE
ध्वज सेट है, '\s'
से मेल खाएगी से मेल नहीं खाता:अजगर regex ' s' यूनिकोड बीओएम (U + FEFF)
जो कुछ भी स्थान के रूप में वर्गीकृत किया गया है यूनिकोड चरित्र गुण डेटाबेस।
जहाँ तक मैं कह सकता हूं, बीओएम (यू + एफईएफएफ) classified as a space है।
हालांकि:
re.match(u'\s', u'\ufeff', re.UNICODE)
None
मूल्यांकन करता है।
क्या यह पाइथन में एक बग है या क्या मुझे कुछ याद आ रही है?
'लेन (सी में मानचित्र के लिए सी (सीआर, रेंज (sys.maxunicode + 1)) अगर unicodedata.category (c) == 'सीएफ' और c.isspace()]) शून्य है। – jfs