मैं इस मुद्दे को बड़े डेटा टेक्स्ट खनन सेट के संदर्भ में भी पार करता हूं। पूरे डेटा सेट को एक बार में लोड करना संभव नहीं था।
यहां, ऐसे बड़े डेटा सेट के लिए एक और विकल्प संभव है। दृष्टिकोण एक लूप के अंदर एक दस्तावेज़ निगम के वेक्टर को इकट्ठा करना है। इस तरह के सभी दस्तावेजों को संसाधित करने के बाद, इस वेक्टर को एक विशाल कॉर्पस में परिवर्तित करना संभव है। इस पर एक डीटीएम बनाने के लिए।
# Vector to collect the corpora:
webCorpusCollection <- c()
# Loop over raw data:
for(i in ...) {
try({
# Convert one document into a corpus:
webDocument <- Corpus(VectorSource(iconv(webDocuments[i,1], "latin1", "UTF-8")))
#
# Do other things e.g. preprocessing...
#
# Store this document into the corpus vector:
webCorpusCollection <- rbind(webCorpusCollection, webDocument)
})
}
# Collecting done. Create one huge corpus:
webCorpus <- Corpus(VectorSource(unlist(webCorpusCollection[,"content"])))
उत्तर के लिए धन्यवाद। मुझे अद्यतन टीएम मैनुअल के बारे में पता नहीं था। यह पिछले टीएम मैनुअल (2010 या पिछले संस्करणों) में नहीं था। –