मैं टीएफ-आईडीएफ का उपयोग करके शब्दों का एक शब्दकोश बनाने की कोशिश कर रहा हूं। हालांकि, सहजता से यह समझ में नहीं आता है।टर्म निष्कर्षण के लिए टीएफ-आईडीएफ के पीछे अंतर्ज्ञान
यदि टीएफ-आईडीएफ के व्यस्त दस्तावेज़ आवृत्ति (आईडीएफ) भाग पूरे कॉर्पस के संबंध में एक शब्द की प्रासंगिकता की गणना करता है, तो इसका अर्थ यह है कि कुछ महत्वपूर्ण शब्दों में कम प्रासंगिकता हो सकती है।
यदि हम कानूनी दस्तावेजों के एक समूह को देखते हैं, तो प्रत्येक दस्तावेज़ में "लाइसेंस" या "कानूनी" जैसी अवधि हो सकती है। आईडीएफ के कारण, इन शर्तों के लिए स्कोर बहुत कम होगा। हालांकि, सहजता से बोलते हुए, इन शर्तों में उच्च स्कोर होना चाहिए क्योंकि ये स्पष्ट रूप से कानूनी शर्तें हैं।
क्या टीएफ-आईडीएफ शब्दों के शब्दकोश के निर्माण के लिए एक खराब दृष्टिकोण है?
मैं ट्रेनिंग सेट के रूप में दस्तावेज़ों के एक कॉर्पस का उपयोग करके सभी कानूनी शर्तों के लिए शब्दकोश बनाने की लाइनों के साथ और सोच रहा था। लेकिन आप सही हैं, अगर मेरे पास पहले से ही वे शर्तें हैं और फिर कानूनी दस्तावेज़ों को गैर-कानूनी लोगों से अलग करना अधिक उपयोगी है। – jCoder
एक तरीका टीएफएक्सआईडीएफ उपयोगी हो सकता है * कानूनी शर्तों को अलग करना * अलग करना है। गैर-कानूनी दस्तावेजों का एक अलग आधार बनाएं (विकिपीडिया शीर्ष लेख, कानूनी विषयों को हटाने के लिए vetted?) और उस से अपने आईडीएफ मूल्य बनाएँ। अब कानूनी दस्तावेजों के संग्रह के टीएफएक्सआईडीएफ गणना में इसे लागू करें। विशेष रूप से कानूनी शर्तों में एक उच्च आईडीएफ होगा और इस प्रकार बाहर खड़ा होगा, जबकि बोर्ड में आम शब्दों के सामान्य शब्दों में कम आईडीएफ होगा, और टीएफ उच्च होने पर भी नीचे डूब जाएंगे। – tripleee
नाइट पिक: यह टीएफ/डीएफ या टीएफएक्सआईडीएफ है जहां आईडीएफ को 1/डीएफ के रूप में परिभाषित किया जाता है। – tripleee