कुछ काले जादू की तलाश है जो किसी भी स्ट्रिंग से "अजीब" वर्णों से मेल खाएगा। मानक ASCII वर्ण ठीक हैं। बाकी सब कुछ नहीं है।.Net Regex जो किसी भी गैर-ASCII char के साथ स्ट्रिंग्स को मेल करता है
यह विभिन्न वेब रूपों को स्वच्छ करने के लिए है।
कुछ काले जादू की तलाश है जो किसी भी स्ट्रिंग से "अजीब" वर्णों से मेल खाएगा। मानक ASCII वर्ण ठीक हैं। बाकी सब कुछ नहीं है।.Net Regex जो किसी भी गैर-ASCII char के साथ स्ट्रिंग्स को मेल करता है
यह विभिन्न वेब रूपों को स्वच्छ करने के लिए है।
यह ASCII रेंज
[^\x00-\x7F]
से बाहर कुछ भी हो जाता है अभी भी x00
(शून्य) जैसे कुछ "अजीब" वर्ण हैं, लेकिन वे मान्य ASCII हैं।
संदर्भ के लिए, अन्य गैर ASCIIs (और अभी तक अधिक से अधिक काट कूट के साथ) को चोट पहुंचाए बिना formatters और नियंत्रण से बाहर समाशोधन के लिए ASCII table
"ASCII तालिका" पृष्ठ बकवास है (मेरे फ्रेंच क्षमा करें)। यह प्रस्तुत करता है कि "विस्तारित ASCII सेट" के "सबसे लोकप्रिय" के रूप में दूसरा चार्ट - फिर से आएं? यह सीपी 850 है! उद्देश्य पर इसका कोई भी उपयोग नहीं करता है; यह विंडोज कमांड लाइन का डिफ़ॉल्ट एन्कोडिंग होता है। इसके अलावा, टेबल छवियां हैं, और वे एक एलसीडी डिस्प्ले पर नरक की तरह दिखते हैं (मेरी इतालवी क्षमा करें)। उन्हें इसके बजाय विकिपीडिया पर भेजें: http://en.wikipedia.org/wiki/ASCII –
क्या के लिए कहा जाता है के लिए काट कूट के लिए स्वयं प्रलेखन अधिक [^\p{IsBasicLatin}]
, [^\x00-\x7F]
, या \p{C}
देखते हैं।
गंभीरता से? यू +0001 हेडिंग या यू + 0007 बेल की शुरुआत ठीक है, लेकिन सादा अंग्रेजी नहीं है? क्या आप वाकई एएससीआईआईआई के लिए मेल खाते हैं? –
चलो, आप \ a पर क्यों नफरत कर रहे हैं। यह बहुत अच्छा है। लेकिन हाँ, गंभीरता से। पिछली बार जब मैंने दर्पण चार या कुछ अन्य लोगों की तरह पेज प्रतिपादन वाले हस्तक्षेपों में से कोई भी चेक नहीं किया था। –
या तो किसी पृष्ठ के साथ गड़बड़ नहीं करता है। यदि पृष्ठ प्रतिपादन के साथ गड़बड़ करना समस्या है, तो शायद '\ p {C}' का उपयोग करें। 'नया रेगेक्स (@ "\ पी {सी}")। बदलें (संदिग्ध, स्ट्रिंग.एक्टी)' एएससीआईआईआई और गैर-एएससीआईआई नियंत्रण और स्वरूपण दोनों को साफ़ कर देगा, जबकि सामान्य पाठ को और अधिक भद्दा नुकसान नहीं पहुंचाएगा (या जैसा कि आपके पास होगा यह, नावे) दृष्टिकोण उलझन में होगा। विशेष रूप से यदि आपके पास नाम या लोग या स्थान कहीं भी दिख रहे हैं (उचित नाम दोनों जगहों पर हैं जहां गैर-ASCII अक्षरों अंग्रेजी में बहुत अधिक फसल डालते हैं, और ऐसे स्थान जहां उपयोगकर्ता विशेष रूप से परेशान होते हैं यदि आप उन्हें उलझाना चाहते हैं)। –