मैं फ़ाइल के एक कॉर्पस से आर का उपयोग कर टर्म-दस्तावेज़ मैट्रिक्स बनाने की कोशिश कर रहा हूं। , अतः में अन्य उत्तर में दिए गए के रूप मेंआर में टर्म-दस्तावेज़ मैट्रिक्स में त्रुटि को कैसे निकालें?
library(tm)
library(RWeka)
library(tmcn.word2vec)
#Reading data
data <- read.csv("Train.csv", header=T)
#text <- data$EventDescription
#Pre-processing
corpus <- Corpus(VectorSource(data$EventDescription))
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, PlainTextDocument)
#dataframe <- data.frame(text=unlist(sapply(corpus,'[',"content")))
#Reading dictionary file
dict <- scan("dictionary.txt", what='character',sep='\n')
#Bigram Tokenization
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 4))
tdm_doc <- DocumentTermMatrix(corpus,control=list(stopwords = dict, tokenize=BigramTokenizer))
tdm_dic <- DocumentTermMatrix(corpus,control=list(tokenize=BigramTokenizer, dictionary=dict))
मैं SnowballC पैकेज को स्थापित करने की कोशिश की है और:
Error in simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), :
'i, j' invalid
Calls: DocumentTermMatrix ... TermDocumentMatrix.VCorpus -> simple_triplet_matrix -> .Call
In addition: Warning messages:
1: In mclapply(unname(content(x)), termFreq, control) :
scheduled core 1 encountered error in user code, all values of the job will be affected
2: In simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), :
NAs introduced by coercion
मेरे कोड नीचे दिया गया है लेकिन कोड चलाने पर मैं यह त्रुटि 2 चेतावनी के बाद हो रही है अन्य सूचीबद्ध विचार। फिर भी मुझे एक ही त्रुटि मिल रही है। क्या कोई इस संबंध में मेरी मदद कर सकता है? अग्रिम में धन्यवाद।
इनपुट फ़ाइलों के लिए पर्याप्त पोस्ट करें ताकि एक उदाहरण के लिए त्रुटि – pcantalupo
पुन: पेश कर सकते हैं का मूल्य पोस्ट 'dput (सिर (डेटा))'। लेकिन सबसे पहले कोशिश करें और देखें कि क्या आपको त्रुटि मिलती है जब आप केवल 'डेटा' के 'हेड' का उपयोग करते हैं। –
समानांतर समस्या की तरह दिखता है। यह [पोस्ट] देखें (http://stackoverflow.com/questions/25069798/r-tm-in-mclapplycontentx-fun-all-scheduled-cores-encountered-errors) या यह [पोस्ट] (http: // stackoverflow। com/प्रश्न/17703553/Bigrams-बजाय के- एकल शब्दों में termdocument-मैट्रिक्स का उपयोग कर-r और rweka)। – phiver