2012-01-24 9 views
5

मैं (मूल एक समाचार साइट पर टिप्पणी है) हिब्रू लेख के अनुभाग निम्नलिखित regex का उपयोग कर पकड़ने की कोशिश कर रहा हूँ:जावा में रीगेक्स के साथ हिब्रू कैप्चर कैसे करें?

[\u0590-\u05FF \\p{Graph} \\s]+ 

यह सबसे टिप्पणी के लिए काम करता है लेकिन कुछ टिप्पणियों को याद कर रहे हैं।

मैंने इसे डीबग करने का प्रयास किया है और ऐसा लगता है कि एक हिब्रू अक्षर है जो पैटर्न से मेल नहीं खाता है।

जब मैं इस पत्र को निकालने और प्रिंट यह पूर्णांक मान यह सही प्रतीत हो रहा है है, लेकिन अभी भी regex इसे पकड़ नहीं करता है ...

विचार?

+0

क्या आप अपनी 'Pattern.compile' विधि के अंदर' Pattern.UNICODE_CASE' का उपयोग करते हैं? –

+0

नहीं, क्या मुझे चाहिए? – lribinik

+0

इसे आज़माएं: 'पैटर्न पी = Pattern.compile ("YOUR_REGEX", पैटर्न.UNICODE_CASE); ' –

उत्तर

0

यह अधिक sematically सही \u0590-\u05FF

के बजाय \p{InHebrew} उपयोग करने के लिए इसके अलावा, आप विराम चिह्न, अंक (कम से कम, विश्व आम लोगों) से मेल और रिक्त स्थान के विभिन्न प्रकार की जरूरत होगी। मुझे नहीं पता कि \p{Graph} क्या है और क्या कोई हिब्रू-विशिष्ट विराम चिह्न प्रतीक हैं, लेकिन ऐसा लगता है, आप कुछ हिस्सों को याद करते हैं।

संबंधित मुद्दे