मुझे csv
फ़ाइलों का एक गुच्छा मिला है जो मैं आर में पढ़ रहा हूं और .rdata
प्रारूप में पैकेज/डेटा फ़ोल्डर में शामिल हूं। दुर्भाग्य से डेटा में गैर-ASCII वर्ण चेक विफल हो जाते हैं। tools
पैकेज में गैर-ASCII वर्णों (showNonASCII
और showNonASCIIfile
) की जांच करने के लिए दो कार्य हैं, लेकिन मुझे उन्हें हटाने/साफ़ करने के लिए कोई पता लगाने के लिए प्रतीत नहीं होता है।डेटा फ़ाइलों से गैर-ASCII वर्णों को हटा रहा है
इससे पहले कि मैं अन्य यूनिक्स उपकरण का पता लगा सकूं, आर में यह सब करना बहुत अच्छा होगा, इसलिए मैं कच्चे डेटा से अंतिम उत्पाद तक एक पूर्ण वर्कफ़्लो बनाए रख सकता हूं। क्या गैर-ASCII वर्णों से छुटकारा पाने में मेरी सहायता के लिए कोई मौजूदा पैकेज/फ़ंक्शन हैं?
नियमित अभिव्यक्तियों के साथ प्रयास करें, उदाहरण के लिए फ़ंक्शन gsub। जांचें? Regexp – aatrujillob
आप जानते हैं कि 'read.csv() '' एन्कोडिंग' तर्क लेता है, ताकि आप इन्हें कम से कम आर में संभाल सकें? गैर-ASCII वर्णों में कौन सी विशिष्ट जांच विफल होती है, क्या यह आर में है (यदि इसे यहां पोस्ट करें), या बाहरी? – smci