लिनक्स पर, मेरे पास बहुत सारी फाइलें हैं। उनमें से कुछ में गैर-ASCII वर्ण हैं, लेकिन वे सभी वैध UTF-8 हैं। एक कार्यक्रम में एक बग है जो इसे गैर-ASCII फ़ाइल नामों के साथ काम करने से रोकता है, और मुझे यह पता लगाना होगा कि कितने प्रभावित हैं। मैं find
के साथ ऐसा करने जा रहा था और फिर गैर-ASCII वर्णों को मुद्रित करने के लिए grep करता हूं, और फिर संख्या खोजने के लिए wc -l
करें। यह grep होना जरूरी नहीं है; मैं किसी भी मानक यूनिक्स regular expression, Perl की तरह, sed, AWK, उपयोग कर सकते हैं आदि(grep) Regex गैर-ASCII वर्णों से मेल खाने के लिए?
हालांकि, वहाँ 'किसी भी चरित्र है कि एक ASCII वर्ण नहीं है' के लिए एक नियमित अभिव्यक्ति है?
[^\x00-\x7F]
यह एक वैध PCRE (पर्ल संगत नियमित अभिव्यक्ति) है:
perl स्थापित है? –
पॉल, हाँ, मैं perl – Rory