2013-08-26 7 views
11

में कस्टम स्टॉपवर्ड जोड़ना मेरे पास tm पैकेज का उपयोग कर आर में कॉर्पस है। मैं stopwords को दूर करने के removeWords समारोहआर टीएम

tm_map(abs, removeWords, stopwords("english")) 

इस सूची के लिए अपने स्वयं के कस्टम रोकने वाले शब्द को जोड़ने के लिए एक रास्ता है लागू करने कर रहा हूँ?

उत्तर

31

stopwords सिर्फ आपको शब्दों का एक वेक्टर प्रदान करता है, बस c इस पर अपने स्वयं के लोगों को शामिल करें।

tm_map(abs, removeWords, c(stopwords("english"),"my","custom","words")) 
+0

प्रत्येक ऑपरेशन के लिए ऐसा करने के बजाय, क्या कोई फ़ाइल या निर्देश है जहां मैं इन अतिरिक्त स्टॉप शब्दों जैसे प्रतिशत, प्रतिशत, मिलियन इत्यादि जोड़ सकता हूं? – Pradeep

1

आप stopwords & इस तरह बयान का उपयोग अपने कस्टम का एक वेक्टर बना सकते हैं:

tm_map(abs, removeWords, c(stopwords("english"), myStopWords)) 
+0

क्या MyStopWords एक सूची या चरित्र होने की उम्मीद है? क्या आप myStopWords बनाने के लिए कमांड प्रदान कर सकते हैं? क्या यह myStopWords <- read.csv ('mystop.csv') – harsha

1

यह stopwords की डिफ़ॉल्ट सूची है कि टीएम स्थापित के साथ आया करने के लिए अपने खुद के stopwords जोड़ना संभव है । "टीएम" पैकेज स्टॉपवर्ड सहित कई डेटा फ़ाइलों के साथ आता है, और ध्यान दें कि स्टॉपवर्ड फाइलें कई भाषाओं के लिए आती हैं। आप stopwords निर्देशिका के अंतर्गत english.dat फ़ाइल को जोड़, हटा या अपडेट कर सकते हैं।
स्टॉपवर्ड निर्देशिका खोजने का सबसे आसान तरीका है अपने सिस्टम ब्राउज़र में "सिस्टम" निर्देशिका को खोजना। और आपको कई अन्य भाषा फ़ाइलों के साथ english.dat मिलना चाहिए। RStudio से english.dat फ़ाइल खोलें जो फ़ाइल को संपादित करने में सक्षम होना चाहिए - आप अपने शब्दों को जोड़ सकते हैं या मौजूदा शब्दों को आवश्यकतानुसार छोड़ सकते हैं। यदि आप किसी अन्य भाषा में स्टॉपवर्ड संपादित करना चाहते हैं तो यह वही प्रक्रिया है।

2

एक सीएसवी फ़ाइल में अपने कस्टम stop words सहेजें (उदा: word.csv)।

library(tm) 
stopwords <- read.csv("word.csv", header = FALSE) 
stopwords <- as.character(stopwords$V1) 
stopwords <- c(stopwords, stopwords()) 

फिर आप अपनी टेक्स्ट फ़ाइल में custom words लागू कर सकते हैं।

text <- VectorSource(text) 
text <- VCorpus(text) 
text <- tm_map(text, content_transformer(tolower)) 
text <- tm_map(text, removeWords, stopwords) 
text <- tm_map(text, stripWhitespace) 

text[[1]]$content 
+0

काम करता है कृपया कोड के ब्लॉक के लिए 4-स्पेस इंडेंटेशन का उपयोग करें (उन्हें बैकटिक करने के बजाय) – YakovL

संबंधित मुद्दे