2011-07-07 15 views
6

मैं सोच रहा था अगर वहाँ आर के पाठ खनन पैकेज निम्नलिखित सुविधा होने का कोई मौका है में नए दस्तावेज़ों को शामिल करने की अनुमति दे:आर पाठ खनन पैकेज: एक मौजूदा कोष

myCorpus <- Corpus(DirSource(<directory-contatining-textfiles>),control=...) 
# add docs 
myCorpus.addDocs(DirSource(<new-dir>),control=...) 

आदर्श रूप में मैं अतिरिक्त दस्तावेज को शामिल करना चाहते हैं मौजूदा कॉर्पस में।

किसी भी मदद

उत्तर

11

सराहना की तुम बस

> library(tm) 
> data("acq") 
> data("crude") 
> together <- c(acq,crude) 
> acq 
A corpus with 50 text documents 
> crude 
A corpus with 20 text documents 
> together 
A corpus with 70 text documents 

में के रूप में c(,) उपयोग करने के लिए आप tm_combine तहत tm package documentation पर प्राप्त कर सकते सक्षम होना चाहिए।

+0

उत्तर के लिए धन्यवाद। मुझे अद्यतन टीएम मैनुअल के बारे में पता नहीं था। यह पिछले टीएम मैनुअल (2010 या पिछले संस्करणों) में नहीं था। –

0

मैं इस मुद्दे को बड़े डेटा टेक्स्ट खनन सेट के संदर्भ में भी पार करता हूं। पूरे डेटा सेट को एक बार में लोड करना संभव नहीं था।

यहां, ऐसे बड़े डेटा सेट के लिए एक और विकल्प संभव है। दृष्टिकोण एक लूप के अंदर एक दस्तावेज़ निगम के वेक्टर को इकट्ठा करना है। इस तरह के सभी दस्तावेजों को संसाधित करने के बाद, इस वेक्टर को एक विशाल कॉर्पस में परिवर्तित करना संभव है। इस पर एक डीटीएम बनाने के लिए।

# Vector to collect the corpora: 
webCorpusCollection <- c() 

# Loop over raw data: 
for(i in ...) { 

    try({  

    # Convert one document into a corpus: 
    webDocument <- Corpus(VectorSource(iconv(webDocuments[i,1], "latin1", "UTF-8"))) 

    # 
    # Do other things e.g. preprocessing... 
    # 

    # Store this document into the corpus vector: 
    webCorpusCollection <- rbind(webCorpusCollection, webDocument) 

    }) 
} 

# Collecting done. Create one huge corpus: 
webCorpus <- Corpus(VectorSource(unlist(webCorpusCollection[,"content"]))) 
संबंधित मुद्दे