2015-09-11 10 views
5

मैं फ़ाइल के एक कॉर्पस से आर का उपयोग कर टर्म-दस्तावेज़ मैट्रिक्स बनाने की कोशिश कर रहा हूं। , अतः में अन्य उत्तर में दिए गए के रूप मेंआर में टर्म-दस्तावेज़ मैट्रिक्स में त्रुटि को कैसे निकालें?

library(tm) 
library(RWeka) 
library(tmcn.word2vec) 

#Reading data 
data <- read.csv("Train.csv", header=T) 
#text <- data$EventDescription 

#Pre-processing 
corpus <- Corpus(VectorSource(data$EventDescription)) 
corpus <- tm_map(corpus, stripWhitespace) 
corpus <- tm_map(corpus, removePunctuation) 
corpus <- tm_map(corpus, tolower) 
corpus <- tm_map(corpus, PlainTextDocument) 
#dataframe <- data.frame(text=unlist(sapply(corpus,'[',"content"))) 

#Reading dictionary file 
dict <- scan("dictionary.txt", what='character',sep='\n') 

#Bigram Tokenization 
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 4)) 
tdm_doc <- DocumentTermMatrix(corpus,control=list(stopwords = dict, tokenize=BigramTokenizer)) 
tdm_dic <- DocumentTermMatrix(corpus,control=list(tokenize=BigramTokenizer, dictionary=dict)) 

मैं SnowballC पैकेज को स्थापित करने की कोशिश की है और:

Error in simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), : 
'i, j' invalid 
Calls: DocumentTermMatrix ... TermDocumentMatrix.VCorpus -> simple_triplet_matrix -> .Call 
In addition: Warning messages: 
1: In mclapply(unname(content(x)), termFreq, control) : 
scheduled core 1 encountered error in user code, all values of the job will be affected 
2: In simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), : 
NAs introduced by coercion 

मेरे कोड नीचे दिया गया है लेकिन कोड चलाने पर मैं यह त्रुटि 2 चेतावनी के बाद हो रही है अन्य सूचीबद्ध विचार। फिर भी मुझे एक ही त्रुटि मिल रही है। क्या कोई इस संबंध में मेरी मदद कर सकता है? अग्रिम में धन्यवाद।

+2

इनपुट फ़ाइलों के लिए पर्याप्त पोस्ट करें ताकि एक उदाहरण के लिए त्रुटि – pcantalupo

+0

पुन: पेश कर सकते हैं का मूल्य पोस्ट 'dput (सिर (डेटा))'। लेकिन सबसे पहले कोशिश करें और देखें कि क्या आपको त्रुटि मिलती है जब आप केवल 'डेटा' के 'हेड' का उपयोग करते हैं। –

+0

समानांतर समस्या की तरह दिखता है। यह [पोस्ट] देखें (http://stackoverflow.com/questions/25069798/r-tm-in-mclapplycontentx-fun-all-scheduled-cores-encountered-errors) या यह [पोस्ट] (http: // stackoverflow। com/प्रश्न/17703553/Bigrams-बजाय के- एकल शब्दों में termdocument-मैट्रिक्स का उपयोग कर-r और rweka)। – phiver

उत्तर

10

मुझे कॉर्पस की सफाई करते समय भी इसी तरह की त्रुटि थी। समस्या को ठीक करने के लिए मैंने कोड की अपमानजनक रेखा के बाद निम्नलिखित जोड़ा और इसे ठीक किया। कुछ tm_map फ़ंक्शंस कॉर्पस नहीं लौटते हैं ...

corpus <- Corpus(VectorSource(corpus)) 

मेरे लिए समस्या पूरी होने के बाद उत्पन्न हुई। मैं सुझाव देता हूं कि प्रत्येक tm_map कॉल के बाद tdm बनाने का प्रयास करें। यह आपको बताएगा कि कौन सा सफाई कदम समस्या पैदा कर रहा है।

शुभकामनाएँ!

+1

मैंने tm_map का निदान करने का प्रयास किया है जो मेरी समस्या को आपके तरीके से उत्पन्न करता है। यह यह था: कॉर्पस <- tm_map (कॉर्पस, प्लेनटेक्स्ट डॉक्यूमेंट) – lbcommer

8

मैं अपने DocumnetTermMatrix प्राप्त करने के लिए एक ही समस्या थी और मैं निम्न आदेश को हटाने के द्वारा इसे हल:

corpus <- tm_map(corpus, PlainTextDocument) 
संबंधित मुद्दे