का उपयोग कर दस्तावेज़-फीचर मैट्रिक्स में फ़ीचर चयन प्राकृतिक भाषा प्रसंस्करण का उपयोग करके मैं टेक्स्टिंग खनन कर रहा हूं। मैंने दस्तावेज़-फीचर मैट्रिक्स (डीएफएम) उत्पन्न करने के लिए quanteda
पैकेज का उपयोग किया। अब मैं ची-स्क्वायर टेस्ट का उपयोग करके फीचर चयन करना चाहता हूं। मुझे पता है कि पहले से ही बहुत से लोगों ने इस सवाल से पूछा था। हालांकि, मुझे इसके लिए प्रासंगिक कोड नहीं मिला।ची-स्क्वायर टेस्ट
मुझे लगता है कि मैं FSelector
पैकेज में chi.squared
इस्तेमाल कर सकते हैं, लेकिन मैं कैसे एक DFM वर्ग वस्तु (नीचे trainingtfidf
) को यह समारोह लागू करने के लिए पता नहीं है सीखा है: (https://stats.stackexchange.com/questions/93101/how-can-i-perform-a-chi-square-test-to-do-feature-selection-in-r जवाब सिर्फ एक संक्षिप्त अवधारणा है, इस तरह दिया)। (मैनुअल में दिखाता है, यह predictor चर पर लागू होता है)
क्या कोई मुझे संकेत दे सकता है? मैं इसकी सराहना करता हूं!
उदाहरण कोड:
description <- c("From month 2 the AST and total bilirubine were not measured.", "16:OTHER - COMMENT REQUIRED IN COMMENT COLUMN;07/02/2004/GENOTYPING;SF- genotyping consent not offered until T4.", "M6 is 13 days out of the visit window")
code <- c(4,3,6)
example <- data.frame(description, code)
library(quanteda)
trainingcorpus <- corpus(example$description)
trainingdfm <- dfm(trainingcorpus, verbose = TRUE, stem=TRUE, toLower=TRUE, removePunct= TRUE, removeSeparators=TRUE, language="english", ignoredFeatures = stopwords("english"), removeNumbers=TRUE, ngrams = 2)
# tf-idf
trainingtfidf <- tfidf(trainingdfm, normalize=TRUE)
sessionInfo()
R version 3.3.0 (2016-05-03)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)
locale:
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C
[5] LC_TIME=English_United States.1252
आपको बहुत धन्यवाद केन! मेरा ईमेल भी जवाब देने के लिए धन्यवाद :) –