मैं एक ही समय में कई दस्तावेज़ों में होने वाले शब्दों को खोजने का प्रयास कर रहा हूं।उसी तरह से स्थान से अलग शब्दों का इलाज करें
हमें एक उदाहरण लें।
doc1: "this is a document about milkyway"
doc2: "milky way is huge"
आप 2 दस्तावेजों ऊपर में देख सकते हैं, शब्द "Milkyway" दोनों डॉक्स में हो रहा है लेकिन दूसरे दस्तावेज़ शब्द "Milkyway" में ऐसा नहीं है एक रिक्ति से और पहले दस्तावेज़ में अलग है।
मैं आर
मेंlibrary(tm)
tmp.text <- data.frame(rbind(doc1, doc2))
tmp.corpus <- Corpus(DataframeSource(tmp.text))
tmpDTM <- TermDocumentMatrix(tmp.corpus, control = list(tolower = T, removeNumbers = T, removePunctuation = TRUE,stopwords = TRUE,wordLengths = c(2, Inf)))
tmp.df <- as.data.frame(as.matrix(tmpDTM))
tmp.df
1 2
document 1 0
huge 0 1
milky 0 1
milkyway 1 0
way 0 1
टर्म milkyway
दस्तावेज़ अवधि मैट्रिक्स प्राप्त करने के लिए निम्नलिखित कर रहा हूँ ऊपर मैट्रिक्स के अनुसार पहले दस्तावेज़ में ही मौजूद है।
मैं उपर्युक्त मैट्रिक्स में "मिल्कीवे" शब्द के लिए दोनों दस्तावेज़ों में 1 प्राप्त करने में सक्षम होना चाहता हूं। यह सिर्फ एक उदाहरण है। मुझे बहुत सारे दस्तावेजों के लिए ऐसा करने की ज़रूरत है। आखिरकार मैं इस तरह के शब्दों ("मिल्कीवे" & "दूधिया रास्ता") का इलाज करने में सक्षम होना चाहता हूं।
संपादित करें 1:
मैं अवधि दस्तावेज़ मैट्रिक्स इस तरह से है कि जो कुछ भी शब्द के लिए यह देखने के लिए सिर्फ एक के रूप में उस शब्द के लिए नहीं देखना चाहिए कोशिश कर रहा है में गणना करने के लिए मजबूर नहीं किया जा सकता स्ट्रिंग में अलग शब्द लेकिन तारों के भीतर भी? उदाहरण के लिए, एक शब्द milky
है और एक दस्तावेज़ this is milkyway
है इसलिए वर्तमान में milky
इस दस्तावेज़ में नहीं होता है, लेकिन यदि एल्गोरिदम स्ट्रिंग के भीतर प्रश्न में शब्द को देखता है तो यह milky
शब्द milkyway
के भीतर भी मिलेगा, इस तरह शब्द milky
और way
मेरे दोनों दस्तावेज़ों (पहले उदाहरण) में गिना जाएगा।
संपादित करें 2:
अंत में मैं दस्तावेजों के बीच समानता कोज्या सूचकांक गणना करने में सक्षम होना चाहता हूँ।
शायद रिक्त स्थान हटाएं फिर regex का उपयोग करें? – zx8754
क्या आपको केवल 'दूधिया तरीके' या दूसरों के लिए ऐसा करने की ज़रूरत है? क्या आप पसंद करते हैं कि वे दोनों 'मिलकीवे' हों? –
@ सेबेस्टियन-सी मुझे इसे कई शब्दों के लिए करने की ज़रूरत है। मैं दोनों तरह से "मिल्कवे" बनना पसंद करता हूं। "रोज़ाना" और "हर दिन" जैसे मामले हो सकते हैं। इस मामले में मैं उन्हें "रोज़ाना" बनना पसंद करूंगा। – user3664020