मैं क्वेरी के टीएफ-आईडीएफ की गणना कैसे करूं?

मैं एक प्रश्न के लिए tf-idf की गणना कैसे करूं? मैं समझता हूँ कि कैसे निम्नलिखित परिभाषा के साथ दस्तावेजों का एक सेट के लिए tf-आईडीएफ गणना करने के लिए:मैं क्वेरी के टीएफ-आईडीएफ की गणना कैसे करूं?

tf = दस्तावेज़/कुल शब्दों में दस्तावेज़ में आवृत्तियां

आईडीएफ = लॉग (#documents/#documents जहाँ शब्द

होता है लेकिन मुझे समझ नहीं आता कैसे है कि प्रश्नों को संबद्ध करता है।

उदाहरण के लिए, मैं a resource कि एक प्रश्न "life learning"

जीवन के मूल्यों को कहा गया है पढ़ा | टीएफ = .5 | आईडीएफ = 1.405507153 | tf_idf = 0.702753576
सीखना | टीएफ = .5 | आईडीएफ = 1.405507153 | tf_idf = 0,702753576

tf मूल्यों मैं समझता हूँ, प्रत्येक शब्द के दो संभावित शर्तों, इस प्रकार 1/2 से बाहर केवल एक बार दिखाई देता है, लेकिन मुझे नहीं पता कि जहां idf से आता है।
मुझे लगता है कि # दस्तावेज़ = 1 और घटना = 1, लॉग (1) = 0, इसलिए idf 0 होगा, लेकिन ऐसा लगता है कि यह मामला नहीं है। क्या यह आपके द्वारा उपयोग किए जा रहे दस्तावेज़ों पर आधारित है? आप क्वेरी के लिए टीएफ-आईडीएफ की गणना कैसे करते हैं?

स्रोत

2016-05-09 Codarus

केवल टीएफ (जीवन) क्वेरी पर निर्भर करता है। हालांकि, एक क्वेरी का आईडीएफ पृष्ठभूमि दस्तावेजों पर निर्भर करता है, इसलिए आईडीएफ (जीवन) = 1+ एलएन (3/2) ~ = 1.405507153। यही कारण है कि टीएफ-आईडीएफ को एक वैश्विक घटक (टर्म आवृत्ति) को वैश्विक घटक (व्यस्त दस्तावेज़ आवृत्ति) के साथ गुणा करने के रूप में परिभाषित किया जाता है।

स्रोत

2016-08-18 04:03:26 hypnoticpoisons