यह अनुसंधान में एक MSWord 2010 फ़ाइल को पढ़ने के लिए संभव है पढ़ा है? मेरे पास विंडोज 7 और एक डेल पीसी है।एक MSWord आर में दाखिल
A 20 1000 AA
B 30 1001 BB
C 10 1500 CC
मुझे लगता है कि कहते हैं एक चेतावनी संदेश प्राप्त:
my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')
निम्न पाठ युक्त एक MSWord फ़ाइल पढ़ने की कोशिश करने के लिए:
मैं लाइन का उपयोग कर रहा
चेतावनी संदेश : readLines में ("c:/उपयोगकर्ताओं/मार्क डब्ल्यू मिलर/सरल आर कार्यक्रमों/test_for_r.docx"): अधूरा अंतिम पंक्ति 'ग पर पाया:/उपयोगकर्ताओं/निशान wm
# [1] "PK\003\004\024" "¤l" "ÈFÃË‹Átí"
मैं इस सरल उदाहरण के साथ जानता हूँ कि मैं आसानी से MSWord किसी भिन्न स्वरूप में फ़ाइल में परिवर्तित कर सकते: iller/सरल आर कार्यक्रमों/test_for_r.docx '
और my.data
निरर्थक शब्दों वाला प्रतीत होता है। हालांकि, मेरी वास्तविक डेटा फ़ाइलों में जटिल टेबल शामिल हैं जिन्हें दशकों पहले टाइप किया गया था और फिर बाद में पीडीएफ दस्तावेज़ों में स्कैन किया गया था। मूल कागज, टाइपिंग और/या स्कैनिंग की प्रक्रिया में मूल कागज दस्तावेज़ की उम्र और शायद खामियों कुछ अक्षर और संख्या बहुत स्पष्ट नहीं किया जा रहा है में बदल गया है। अब तक MSWord को पीडीएफ फाइलों में परिवर्तित करने को सही ढंग से टेबल के अनुवाद के लिए सबसे सफल रहा है। एमएसडॉर्ड्स फ़ाइलों को एक्सेल या समृद्ध टेक्स्ट आदि में कनवर्ट करना बहुत सफल नहीं रहा है। MSWord में रूपांतरण के बाद भी परिणामी फाइलें बहुत जटिल हैं और इसमें कई त्रुटियां हैं। मैंने सोचा कि अगर मैं एमएसडॉर्ड्स फ़ाइलों को आर में पढ़ सकता हूं जो उन्हें संपादित और सही करने का सबसे प्रभावी तरीका हो सकता है।
मैं 'पैकेज टीएम' है कि मुझे लगता है कि आर में MSWord फ़ाइलों को पढ़ सकता के बारे में पता कर रहा हूँ, लेकिन मैं इसे का उपयोग कर, क्योंकि यह तीसरे पक्ष के सॉफ़्टवेयर स्थापित करने की आवश्यकता के लिए लगता है के बारे में थोड़ा चिंतित हूं।
किसी भी सुझाव के लिए धन्यवाद।
जहां तक मुझे पता है, एमएस वर्ड फाइलों को पढ़ने के लिए सीआरएएन से कुछ पैकेज स्थापित करने की आवश्यकता होगी। आप तृतीय-पक्ष सॉफ़्टवेयर स्थापित करने के बारे में चिंतित क्यों हैं? –
टीएम पैकेज फंक्शन readDOC() प्रदान करता है। इसके लिए एंटरवर्ड नामक बाहरी (गैर-आर) उपकरण की स्थापना की आवश्यकता है। हालांकि, मेरा मानना है कि पैकेज/टूल केवल वर्ड फाइलों को संस्करण 2003 तक पढ़ता है और .docx फ़ाइलों को संभाल नहीं पाएगा। readLines() या तो सही समाधान नहीं है; इसे इनपुट के रूप में सादे ASCII पाठ की आवश्यकता होती है। – neilfws
क्या होगा यदि आप शब्द को 'html' के रूप में सहेजना चाहते हैं और फिर टेक्स्ट निकालने के लिए वेब स्क्रैपिंग पैकेज (जैसे 'XML' या' RCurl') का उपयोग करना चाहते हैं? – mnel