से गैर लैटिन मूल पात्रों को दूर चलो कहते हैं कि मैं निम्नलिखित कोड डालें: ✔
, ▬
, █
, ✖
, ♫
, ♬
:जावा स्ट्रिंग
String description = "★★★★★ ♫ ♬ This description ✔✔ ▬ █ ✖ is a mess. ♫ ♬ ★★★★★";
मैं गैर-लैटिन वर्ण निकालना चाहते हैं और ★
।
और यह हो गए हैं: This description is a mess.
मुझे पता है कि शायद इन Wingdings की तरह पात्रों के टन है, तो निर्दिष्ट करने मैं निकालना चाहते हैं क्या करने के बजाय, मुझे लगता है कि यह सूची है कि मैं क्या रखना चाहते हैं बेहतर है : Basic Latin और Latin-1 supplements वर्ण।
मैंने पाया कि मैं लेकिन बुनियादी लैटिन वर्णों
String clean_description = description.replaceAll("[^\\x00-\\x7F]", "").trim();
सब कुछ को दूर करने के लिए निम्न कोड का उपयोग कर सकते लेकिन वहाँ एक रास्ता भी लैटिन -1 पूरक पात्रों की रक्षा के लिए है?
चूंकि यह है कि सीमा की तरह लग रहा आता है सही बुनियादी के बाद लैटिन, क्या आप इस पर regex को बदल नहीं सकते: '"[^ \\ x00 - \\ xFF]" '? – resueman
@resueman यह एक उत्तर की तरह लगता है ... –
'\ p {S}' regex आज़माएं, – Saleem