2012-05-05 10 views

उत्तर

12

tf अवधि आवृत्ति है आईडीएफ उलटा दस्तावेज़ आवृत्ति, जिस अवधि वाले दस्तावेज़ों की संख्या से दस्तावेजों की कुल संख्या से भाग, और फिर उस भागफल के लघुगणक लेने के द्वारा प्राप्त होता है।

प्रभाव उत्पन्न कर रहा है सभी शब्दों है जो एक ही स्टेम से प्राप्त कर रहे समूहीकरण (पूर्व: खेला, खेल, ..), इस समूह के लिए, यह स्टेम की घटना में वृद्धि होगी क्योंकि आवृत्तियों शब्द नहीं स्टेम का प्रयोग कर गणना उदाहरण के लिए, यदि आपके पास 2 दस्तावेज़ हैं: पहले व्यक्ति में 'प्ले' 2 बार और 'खेला' 5 गुना, होता है और दूसरे दस्तावेज़ में 'play' 3 बार और 'खेला' 1 बार होता है यदि आप ' दूसरे दस्तावेज़ को स्टेम किए बिना खेलें 'पहले' होगा क्योंकि इसमें 'play' शब्द की अधिक घटना है, जबकि यदि आप स्टेमिंग करते हैं, तो दोनों शब्द स्टेमिंग के बाद 'प्ले' होंगे और पहला दस्तावेज़ पहले कारण होगा क्योंकि इसमें स्टेम शामिल है 7 बार खेलते हैं और दूसरे दस्तावेज़ में स्टेम 4 बार खेलता है।

स्टॉपवर्ड हटाने के बारे में, यह अक्सर सभी दस्तावेज़ों में पाया जाता है और उनमें से किसी के लिए एक कीवर्ड के रूप में नहीं माना जाता है, इसमें किसी भी दृश्य के बिना उच्च freq होगा।

संबंधित मुद्दे