2015-04-29 10 views
5

के विनिर्देश के साथ (डेटा में डेटाटेबल) पिछले प्रश्नों और मेरी समस्या के उत्तर में उचित उत्तर नहीं मिला: 1. मेरे पास 2.3 जीबी सीएसवी फ़ाइल है जिसमें हिब्रू टेक्स्ट की 2.4 मिलियन पंक्तियां हैं, वर्तमान में कोडित ASCII में चूंकि हम बड़ी फ़ाइल के बारे में बात कर रहे हैं, इसलिए फ़्रेड बेहतर होगा लेकिन एन्कोडिंग के बारे में क्या होगा? किसी भी विचार को "स्ट्रिंग में एम्बेडेड नल" त्रुटि से बचने के लिए ASCII में कोडित सीएसवी फ़ाइल को कैसे पढ़ा जाए?एन्कोडिंग

आप

+2

https://github.com/Rdatatable/data.table/issues/563 –

+0

मैंने समाधान की कोशिश की है, लेकिन मुझे आर से मिलता है> फ्रेड ("सी:/उपयोगकर्ता/विंडोज 7/आइडियाप्रोजेक्ट्स/पीएचडी /classifier/phdcorpus2_processed/phdcorpus2_processed.csv ", एन्कोडिंग = 'UTF8') fread में त्रुटि (" सी:/उपयोगकर्ताओं/Windows 7/IdeaProjects/पीएचडी/वर्गीकारक/phdcorpus2_processed/phdcorpus2_processed.csv ",: अप्रयुक्त तर्क (एन्कोडिंग = "यूटीएफ 8") –

+1

यह कोई समाधान नहीं है, यह गिटहब पर एफआर है जिसका अर्थ है कि आपकी समस्या वर्तमान में वर्तमान 'डेटाटेबल' संस्करण का उपयोग करके हल नहीं की जा सकती है, लेकिन डेवलपर्स इस पर काम कर रहे हैं। –

उत्तर

4

धन्यवाद अगस्त 25 की के रूप में case linked by David Arenburg बंद कर दिया है, और कार्यक्षमता data.table की वर्तमान में उपलब्ध संस्करण में शामिल है। एन्कोडिंग पैरामीटर अब जब fread बुला इस्तेमाल किया जा सकता:

text <- fread(file, encoding = 'UTF-8') 

ASCII एक स्पष्ट एन्कोडिंग विकल्प नहीं है, लेकिन ASCII, वैध UTF-8 है जब आप अपने हिब्रू पाठ पढ़ना चाहते हैं तो आप को UTF-8 निर्दिष्ट कर सकते हैं।

+0

मैं data.table 1.9.7 ('sessionInfo()' के साथ पुष्टि कर रहा हूं) और मुझे यह त्रुटि मिलती है: 'त्रुटि में त्रुटि ("data.csv", एन्कोडिंग = "यूटीएफ -8"): अप्रयुक्त तर्क (एन्कोडिंग = "यूटीएफ -8") ' – Jeff

संबंधित मुद्दे