अद्यतन वास्तव में विराम चिह्न निकालें कैसे:जब टीएम पैकेज के साथ आर का उपयोग कर
मुझे लगता है कि मैं इस समस्या को हल करने के लिए, बस एक कोड जोड़ने के लिए एक समाधान हो सकता है: dtms = removeSparseTerms(dtm,0.1)
यह कोष में विरल चरित्र निकाल देंगे। लेकिन मुझे लगता है कि यह केवल एक कामकाज है, फिर भी विशेषज्ञों के जवाब की प्रतीक्षा करें!
हाल ही में मैं टीएम पैकेज का उपयोग कर आर में टेक्स्ट खनन सीख रहा हूं। और मुझे अपने एबीएपी कार्यक्रम में शब्दों के बारे में अधिकतम आवृत्ति में क्लाउड शब्द बनाने का विचार है। तो मैंने इसे महसूस करने के लिए एक आर कार्यक्रम लिखा।
code = tm_map(code,removePunctuation)
कोष सामग्री तो सही नहीं है और इस प्रकार:, भिन्न नाम में यदि ऐसा है तो मैं इस मार डाला -
library(tm)
library(SnowballC)
library(wordcloud)
# set path
path = system.file("texts","abapcode",package = "tm")
# make corpus
code = Corpus(DirSource(path),readerControl = list(language = "en"))
# cleanse text
code = tm_map(code,stripWhitespace)
code = tm_map(code,removeWords,stopwords("en"))
code = tm_map(code,removePunctuation)
code = tm_map(code,removeNumbers)
# make DocumentTermMatrix
dtm = DocumentTermMatrix(code)
#freqency
freq = sort(colSums(as.matrix(dtm)),decreasing = T)
#wordcloud(code,scale = c(5,1),max.words = 50,random.order = F,colors = brewer.pal(8, "Dark2"),rot.per = 0.35,use.r.layout = F)
wordcloud(names(freq),freq,scale = c(5,1),max.words = 50,random.order = F,colors = brewer.pal(8, "Dark2"),rot.per = 0.35,use.r.layout = F)
लेकिन मेरे ABAP कोड में, कुछ भिन्न "_" होते हैं और "" शब्द क्लाउड इस तरह है:
कुछ शब्द बहुत अजीब हैं अगर "_" या "-" को हटा दें।
और फिर मुझे लगता है कि कोड और शब्द बादल टिप्पणी इस तरह है:
इस बार शब्द सही हैं लेकिन कुछ अप्रत्याशित चरित्र इस तरह मेरी ABAP कोड commet के रूप में पॉप, ...
तो क्या हमारे पास कुछ विधियां हैं जो विराम चिह्न को ठीक से हटा सकती हैं जिन्हें हम नहीं चाहते हैं और जिन्हें हम चाहते हैं?
पास-डुप्लिकेट: [टीएम कस्टम निकालें हैशटैग को छोड़कर निष्पादन] (http://stackoverflow.com/questions/27951377/tm-removepunctuation-except-hashtag) – smci