ट्विटर डेटा के कुछ विश्लेषण करने का प्रयास कर रहा है। ट्वीट्स डाउनलोड किया गया और नीचेट्विटर डेटा विश्लेषण - टर्म दस्तावेज़ मैट्रिक्स में त्रुटि
# Creating a Corpus
wim_corpus = Corpus(VectorSource(wimbledon_text))
का उपयोग कर के रूप में नीचे एक TermDocumentMatrix बनाने का प्रयास कर में, मैं एक त्रुटि और चेतावनी हो रही है ट्वीट्स की पाठ से एक कोष बनाया।
tdm = TermDocumentMatrix(wim_corpus,
control = list(removePunctuation = TRUE,
stopwords = TRUE,
removeNumbers = TRUE, tolower = TRUE))
Error in simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), : 'i, j, v' different lengths
In addition: Warning messages:
1: In parallel::mclapply(x, termFreq, control) :
all scheduled cores encountered errors in user code
2: In is.na(x) : is.na() applied to non-(list or vector) of type 'NULL'
3: In TermDocumentMatrix.VCorpus(corpus) : invalid document identifiers
4: In simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), :
NAs introduced by coercion
क्या इस त्रुटि को इंगित करने के लिए? किसी को भी बिंदु इस टीएम पैकेज से संबंधित हो सकता है कर सकते हैं?
टीएम लाइब्रेरी आयात की गई है। मैं आर संस्करण का उपयोग कर रहा हूं: आर 3.0.1 और आरस्टूडियो: 0.97
क्या आप इस त्रुटि को एक छोटी पाठ फ़ाइल (कुछ फ़ाइल जो आप साझा कर सकते हैं) के साथ पुन: उत्पन्न कर सकते हैं? –