मेरे पास एक सीएसवी में विदेशी देशों के लेखक नामों का एक समूह है जो आर ठीक से पढ़ता है। मैं उन्हें मैकेनिकल तुर्क (जो वास्तव में एक अंतरराष्ट्रीयकृत चरित्र भी पसंद नहीं करता) पर अपलोड करने के लिए उन्हें साफ़ करने की कोशिश कर रहा हूं। ऐसा करने में, मैं एक सवाल (बाद में तैनात किया जाना है) है, लेकिन मैं भी dput
उन्हें एक समझदार तरीके से नहीं कर सकते हैं:अंतर्राष्ट्रीयकृत टेक्स्ट को सही तरीके से कैसे दबाएं?
> dput(df[306,"primauthfirstname"])
"Gwena\xeblle M"
> test <- "Gwena\xeblle M"
<simpleError in nchar(val): invalid multibyte string 1>
दूसरे शब्दों में, dput
काम करता है ठीक है, लेकिन परिणाम चिपकाने में विफल रहता है में । dput
क्यों प्रतिलिपि/चिपकाने की अनुमति देने के लिए जरूरी जानकारी आउटपुट नहीं करता है (संभवतया इसे करने की आवश्यकता है एन्कोडिंग विशेषता संरचना विवरण?)। मैं ऐसा करने के लिए कैसे प्राप्त करूं?
ध्यान दें कि \xeb
मान्य वर्ण जहाँ तक आर संबंध है:
> gsub("\xeb","", turk.df[306,"primauthfirstname"])
[1] "Gwenalle M"
लेकिन है कि आप व्यक्तिगत रूप से पात्रों का मूल्यांकन नहीं कर सकते हैं - यह हेक्स कोड है \ x ## या कुछ भी नहीं:
> gsub("\\x","", turk.df[306,"primauthfirstname"])
[1] "Gwena\xeblle M"
यह मेरे लिए ठीक काम करता है: '(test <-" Gwena \ xeblle M ") 'उपज' [1]" Gwenaëlle M "'। मैं आर 2.14.0 का उपयोग 'LANG = en_US.UTF-8' के साथ कर रहा हूं। –
@ माइकल हॉफमैन 'लैनजी' टुकड़ा क्या है? मैं इसे कैसे देखूं? –
यह एक पर्यावरण चर है। 'Sys.getenv (" LANG ") आज़माएं। आर का क्या संस्करण आप उपयोग कर रहे हैं? –