आर और टेक्स्ट खनन में शुरुआती वाक्य के बिना अनुच्छेदों को एक दूसरे के साथ जोड़ना। वर्तमान में टीएम पैकेज का उपयोग करना।आर टेक्स्ट खनन -
मैं एक निगम में दो अलग-अलग दस्तावेज़ों के ग्रंथों को एक साथ जोड़ने की कोशिश कर रहा हूं। जब मैं
c(corpus.doc[[1]],corpus.doc[[2]])
की तरह एक बयान या पेस्ट बयान
paste(corpus.doc[[1]],corpus.doc[[2]])
का उपयोग मैं हर पंक्ति के लिए संयुक्त ग्रंथों का एक परिणाम मिलता है।
उदाहरण के लिए: अगर
> corpus.doc[[1]]
He visits very often
and
sometimes more
> corpus.doc[[2]])
She also
stays
क्या मैं इन बयानों के साथ मिल
He visits very often She also
and stays
sometimes more
की तरह कुछ मैं ऐसा कैसे रोकने के लिए और कर सकते हैं बजाय
He visits very often
and
sometimes more
She also
stays
मिलता है या नहीं है आर टीएम पैकेज में दस्तावेजों को गठबंधन करने का एक आसान तरीका? आपका अग्रिम में ही बहुत धन्यवाद!
अतिरिक्त जानकारी
जब मैं का उपयोग
एक < - सी (corpus.doc [[1]], corpus.doc [[2]], पुनरावर्ती = TRUE)
मुझे लगता है कि यह दो दस्तावेजों के साथ एक कॉर्पस बन जाता है, इसलिए इन दस्तावेज़ों में से प्रत्येक के ग्रंथ अभी भी संयुक्त नहीं हैं। मैं यह चाहते हैं कि
a[[1]]
मुझे corpus.doc के संयुक्त पाठ देता है [[1]] और corpus.doc [[2]]।
str(corpus.doc)
इस
List of 4270
$ CREC-2011-01-05-pt1-PgE1-2.htm :Classes 'PlainTextDocument', 'TextDocument',
'character' atomic [1:74] html head titlecongression record volume issue
head ...
.. ..- attr(*, "Author")= chr(0)
.. ..- attr(*, "DateTimeStamp")= POSIXlt[1:1], format: "2009-01-17 15:45:25"
.. ..- attr(*, "Description")= chr(0)
. . ..- attr(, "Heading")= chr(0) .. ..- attr(, "ID")= chr "CREC-2011-01-05-pt1-PgE1- 2.htm"
और यह हो रहा रखता है की तरह कुछ शो ...
क्यों एक दस्तावेज़ के पाठ को दूसरे दस्तावेज़ में कॉपी और पेस्ट करने के लिए टेक्स्ट एडिटर का उपयोग नहीं करते? यदि आपका उदाहरण दो दस्तावेज़ "PlainTextDocument 'और' TextDocument 'हैं, तो उन्हें टेक्स्ट एडिटर में संपादित करने में कोई समस्या नहीं होनी चाहिए। फिर उस नए दस्तावेज़ का उपयोग टीएम पैकेज के इनपुट के रूप में करें। शुद्ध आर समाधान नहीं है, लेकिन अगर आपके पास अभी कुछ दस्तावेज हैं तो जल्दी। – Ben
हाँ ... मुझे पता है :) यह सिर्फ इतना है कि इनमें से 7000 से अधिक फ़ाइलें (वे भाषण फाइलें हैं), और मैं ग्रंथों को गठबंधन करना चाहता हूं कि वे एक ही वक्ता द्वारा हैं या नहीं। – appletree