मैं वर्तमान में re.findall का उपयोग खोजने के लिए और '#' एक स्ट्रिंग में हैश टैग के लिए चरित्र के बाद शब्द को अलग करने की:पायथन में रेगेक्स के लिए उच्चारण वर्णों के लिए कैसे खाता है?
hashtags = re.findall(r'#([A-Za-z0-9_]+)', str1)
यह str1 खोज करता है और सभी हैशटैग पाता है। यह काम करता है हालांकि यह इस तरह के उच्चारण वर्णों के लिए जिम्मेदार नहीं है उदाहरण के लिए: áéíóúñü¿
।
यदि इनमें से कोई भी अक्षर str1 में है, तो यह हैशटैग को इससे पहले पत्र तक सहेज देगा। तो उदाहरण के लिए, #yogenfrüz
#yogenfr
होगा।
मैं सभी उच्चारण चिह्न वाले अक्षरों कि, जर्मन डच, फ्रेंच और स्पेनिश से लेकर के लिए खाते की ताकि मैं #yogenfrüz
हैशटैग बचा सकता है मैं कैसे कर इस
उपयोग 're.UNICODE' झंडा। –
@ अश्विनी चौधरी: यूनिकोड ध्वज श्रेणी गैर-ASCII वर्णों का उपयोग नहीं करेगा, नहीं। यदि आप 'ए-जे' से मेल खाने के लिए रेगेक्स को बताते हैं, तो यह शाब्दिक सीमा लेता है, न कि मानवीय व्याख्या कि 'ए' और 'á' किसी भी तरह एक ही बात है। –
@MartijnPieters: तो, यह क्या करेगा? ;-) – JohnTortugo