2016-02-17 9 views
5

मैं टीएफ-आईडीएफ का उपयोग करके शब्दों का एक शब्दकोश बनाने की कोशिश कर रहा हूं। हालांकि, सहजता से यह समझ में नहीं आता है।टर्म निष्कर्षण के लिए टीएफ-आईडीएफ के पीछे अंतर्ज्ञान

यदि टीएफ-आईडीएफ के व्यस्त दस्तावेज़ आवृत्ति (आईडीएफ) भाग पूरे कॉर्पस के संबंध में एक शब्द की प्रासंगिकता की गणना करता है, तो इसका अर्थ यह है कि कुछ महत्वपूर्ण शब्दों में कम प्रासंगिकता हो सकती है।

यदि हम कानूनी दस्तावेजों के एक समूह को देखते हैं, तो प्रत्येक दस्तावेज़ में "लाइसेंस" या "कानूनी" जैसी अवधि हो सकती है। आईडीएफ के कारण, इन शर्तों के लिए स्कोर बहुत कम होगा। हालांकि, सहजता से बोलते हुए, इन शर्तों में उच्च स्कोर होना चाहिए क्योंकि ये स्पष्ट रूप से कानूनी शर्तें हैं।

क्या टीएफ-आईडीएफ शब्दों के शब्दकोश के निर्माण के लिए एक खराब दृष्टिकोण है?

उत्तर

4

हाँ ये शर्तें कानूनी शर्तें हैं। हालांकि, टीएफ/आईडीएफ मूल्यांकन करने की कोशिश नहीं करता है कि वे एक विशिष्ट डोमेन के लिए प्रासंगिक हैं या नहीं। वे उस डोमेन से दस्तावेजों को तोड़ने में आपकी मदद करते हैं। यदि प्रत्येक दस्तावेज़ में legal जैसी अवधि होती है तो वे इन दस्तावेजों को अलग करने के लिए क्लासिफायरफ़ॉर्म की सहायता नहीं करेंगे। हालांकि, यदि आप अपने कानूनी दस्तावेज़ों को यादृच्छिक सेट के साथ मिश्रित करते हैं। आप पाएंगे कि वे अचानक बेहद प्रासंगिक हो जाते हैं। वास्तव में क्योंकि वे आपको कानूनी दस्तावेज और अन्य दस्तावेजों को अलग करने की अनुमति देंगे।

प्रैक्टिस में वे आमतौर पर "तरह के" स्टॉप शब्दों को हटाने के लिए उपयोग किए जाते हैं। जैसे The प्रत्येक दस्तावेज़ में होता है और किसी भी अर्थ को पूरा नहीं करता है।

चाहे कोई शब्दकोश बनाने के लिए टीएफ/आईडीएफ अच्छा है या नहीं, इस शब्दकोश के साथ आप जो करना चाहते हैं उस पर निर्भर करता है।

+0

मैं ट्रेनिंग सेट के रूप में दस्तावेज़ों के एक कॉर्पस का उपयोग करके सभी कानूनी शर्तों के लिए शब्दकोश बनाने की लाइनों के साथ और सोच रहा था। लेकिन आप सही हैं, अगर मेरे पास पहले से ही वे शर्तें हैं और फिर कानूनी दस्तावेज़ों को गैर-कानूनी लोगों से अलग करना अधिक उपयोगी है। – jCoder

+1

एक तरीका टीएफएक्सआईडीएफ उपयोगी हो सकता है * कानूनी शर्तों को अलग करना * अलग करना है। गैर-कानूनी दस्तावेजों का एक अलग आधार बनाएं (विकिपीडिया शीर्ष लेख, कानूनी विषयों को हटाने के लिए vetted?) और उस से अपने आईडीएफ मूल्य बनाएँ। अब कानूनी दस्तावेजों के संग्रह के टीएफएक्सआईडीएफ गणना में इसे लागू करें। विशेष रूप से कानूनी शर्तों में एक उच्च आईडीएफ होगा और इस प्रकार बाहर खड़ा होगा, जबकि बोर्ड में आम शब्दों के सामान्य शब्दों में कम आईडीएफ होगा, और टीएफ उच्च होने पर भी नीचे डूब जाएंगे। – tripleee

+0

नाइट पिक: यह टीएफ/डीएफ या टीएफएक्सआईडीएफ है जहां आईडीएफ को 1/डीएफ के रूप में परिभाषित किया जाता है। – tripleee

संबंधित मुद्दे