मेरे पास एक चरित्र वेक्टर है जो pdftotext
(कमांड लाइन उपकरण) के माध्यम से कुछ पीडीएफ स्क्रैपिंग की फ़ाइल है।यह व्हाइटस्पेस छुपा कहाँ है?
सबकुछ अच्छी तरह से रेखांकित है (आनंदपूर्वक)। हालांकि, वेक्टर खाली स्थान के का एक प्रकार है कि मेरे नियमित अभिव्यक्ति eludes से छलनी किया गया है:
> test
[1] "Address:" "Clinic Information:" "Store " "351 South Washburn" "Aurora Quick Care"
[6] "Info" "St. Oshkosh, WI 54904" "Phone: 920‐232‐0718" "Pewaukee"
> grepl("[0-9]+ [A-Za-z ]+",test)
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
> dput(test)
c("Address:", "Clinic Information:", "Store ", "351 South Washburn",
"Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718",
"Pewaukee")
> test.pasted <- c("Address:", "Clinic Information:", "Store ", "351 South Washburn",
+ "Aurora Quick Care", "Info", "St. Oshkosh, WI 54904", "Phone: 920‐232‐0718",
+ "Pewaukee")
> grepl("[0-9]+ [A-Za-z ]+",test.pasted)
[1] FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE
> Encoding(test)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
> Encoding(test.pasted)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "UTF-8" "unknown"
जाहिर है वहाँ कुछ चरित्र है कि dput
में नहीं सौंपा जा रहा है, नीचे दिए गए प्रश्न के रूप में:
How to properly dput internationalized text?
मैं पूरे वेक्टर की प्रतिलिपि/पेस्ट नहीं कर सकता .... मैं इस गैर-व्हाइटस्पेस व्हाइटस्पेस को कैसे खोज और नष्ट कर सकता हूं?
संपादित
जाहिर है मैं भी स्पष्ट करने के लिए, क्योंकि जवाब हर जगह हैं पास नहीं था। यहाँ एक और भी आसान परीक्षण का मामला है:
> grepl("Clinic Information:", test[2])
[1] FALSE
> grepl("Clinic Information:", "Clinic Information:") # Where the second phrase is copy/pasted from the screen
[1] TRUE
वहाँ शब्द "क्लिनिक" और "सूचना" स्क्रीन पर और dput
उत्पादन में छपी के बीच एक भी जगह नहीं है, लेकिन जो कुछ भी स्ट्रिंग में है एक मानक स्थान नहीं है । मेरा लक्ष्य इसे खत्म करना है ताकि मैं उस तत्व को सही ढंग से grep कर सकूं।
वह व्हाइटस्पेस स्वयं वेक्टर में नहीं है, यह वैसे ही प्रदर्शित होता है। –
'लापली (टेस्ट [4], utf8ToInt) पर एक नज़र डालें और देखें कि वहां कोई बड़ी संख्या है या नहीं। –
@AlanCurry '> लापरवाही (परीक्षण [4], utf8ToInt) [1] 51 53 49 160 83 111 117 116 104 160 87 97 115 104 98 117 114 110' –