2010-08-24 8 views
5

कुछ काले जादू की तलाश है जो किसी भी स्ट्रिंग से "अजीब" वर्णों से मेल खाएगा। मानक ASCII वर्ण ठीक हैं। बाकी सब कुछ नहीं है।.Net Regex जो किसी भी गैर-ASCII char के साथ स्ट्रिंग्स को मेल करता है

यह विभिन्न वेब रूपों को स्वच्छ करने के लिए है।

+1

गंभीरता से? यू +0001 हेडिंग या यू + 0007 बेल की शुरुआत ठीक है, लेकिन सादा अंग्रेजी नहीं है? क्या आप वाकई एएससीआईआईआई के लिए मेल खाते हैं? –

+0

चलो, आप \ a पर क्यों नफरत कर रहे हैं। यह बहुत अच्छा है। लेकिन हाँ, गंभीरता से। पिछली बार जब मैंने दर्पण चार या कुछ अन्य लोगों की तरह पेज प्रतिपादन वाले हस्तक्षेपों में से कोई भी चेक नहीं किया था। –

+1

या तो किसी पृष्ठ के साथ गड़बड़ नहीं करता है। यदि पृष्ठ प्रतिपादन के साथ गड़बड़ करना समस्या है, तो शायद '\ p {C}' का उपयोग करें। 'नया रेगेक्स (@ "\ पी {सी}")। बदलें (संदिग्ध, स्ट्रिंग.एक्टी)' एएससीआईआईआई और गैर-एएससीआईआई नियंत्रण और स्वरूपण दोनों को साफ़ कर देगा, जबकि सामान्य पाठ को और अधिक भद्दा नुकसान नहीं पहुंचाएगा (या जैसा कि आपके पास होगा यह, नावे) दृष्टिकोण उलझन में होगा। विशेष रूप से यदि आपके पास नाम या लोग या स्थान कहीं भी दिख रहे हैं (उचित नाम दोनों जगहों पर हैं जहां गैर-ASCII अक्षरों अंग्रेजी में बहुत अधिक फसल डालते हैं, और ऐसे स्थान जहां उपयोगकर्ता विशेष रूप से परेशान होते हैं यदि आप उन्हें उलझाना चाहते हैं)। –

उत्तर

6

यह ASCII रेंज

[^\x00-\x7F] 

से बाहर कुछ भी हो जाता है अभी भी x00 (शून्य) जैसे कुछ "अजीब" वर्ण हैं, लेकिन वे मान्य ASCII हैं।
संदर्भ के लिए, अन्य गैर ASCIIs (और अभी तक अधिक से अधिक काट कूट के साथ) को चोट पहुंचाए बिना formatters और नियंत्रण से बाहर समाशोधन के लिए ASCII table

+1

"ASCII तालिका" पृष्ठ बकवास है (मेरे फ्रेंच क्षमा करें)। यह प्रस्तुत करता है कि "विस्तारित ASCII सेट" के "सबसे लोकप्रिय" के रूप में दूसरा चार्ट - फिर से आएं? यह सीपी 850 है! उद्देश्य पर इसका कोई भी उपयोग नहीं करता है; यह विंडोज कमांड लाइन का डिफ़ॉल्ट एन्कोडिंग होता है। इसके अलावा, टेबल छवियां हैं, और वे एक एलसीडी डिस्प्ले पर नरक की तरह दिखते हैं (मेरी इतालवी क्षमा करें)। उन्हें इसके बजाय विकिपीडिया पर भेजें: http://en.wikipedia.org/wiki/ASCII –

2

क्या के लिए कहा जाता है के लिए काट कूट के लिए स्वयं प्रलेखन अधिक [^\p{IsBasicLatin}], [^\x00-\x7F], या \p{C} देखते हैं।

संबंधित मुद्दे