मेरे पास एक स्ट्रिंग है जिसमें अरबी और अंग्रेजी दोनों वाक्यों हैं। मैं चाहता हूं कि केवल अरबी वाक्य निकालें।नियमित अभिव्यक्ति का उपयोग करके स्ट्रिंग से केवल अरबी ग्रंथों को कैसे पुनर्प्राप्त करें?
my_string="""
What is the reason
ذَلِكَ الْكِتَابُ لَا رَيْبَ فِيهِ هُدًى لِلْمُتَّقِينَ
behind this?
ذَلِكَ الْكِتَابُ لَا رَيْبَ فِيهِ هُدًى لِلْمُتَّقِينَ
"""
This Link पता चलता है कि अरबी अक्षरों के लिए यूनिकोड श्रेणी 0600-06FF
है।
तो, बहुत ही बुनियादी प्रयास मेरे मन में आए है:
import re
print re.findall(r'[\u0600-\u06FF]+',my_string)
लेकिन, इस बुरी तरह विफल रहता है के रूप में यह निम्न सूची देता है।
['What', 'is', 'the', 'reason', 'behind', 'this?']
जैसा कि आप देख सकते हैं, यह वही है जो मैं चाहता हूं। मैं यहाँ क्या याद कर रहा हूँ?
एनबी।
मैं जानता हूँ कि मैं नीचे की तरह उलटा मिलान का उपयोग करके अरबी अक्षरों से मेल कर सकते हैं:
print re.findall(r'[^a-zA-Z\s0-9]+',my_string)
लेकिन, मुझे लगता है कि नहीं करना चाहती।
आपके अच्छे उत्तर के लिए धन्यवाद, +1 लेकिन उपरोक्त प्रयास क्यों काम नहीं करते? –
मैं संतुष्ट हूं :) धन्यवाद –