5

के लिए कैलकुलेटिंग आईडीएफ (व्यस्त दस्तावेज़ आवृत्ति) दस्तावेज़ वर्गीकरण में आईडीएफ (व्यस्त दस्तावेज़ आवृत्ति) की गणना करने में मुझे संदेह है। मेरे पास प्रशिक्षण के लिए कई दस्तावेजों के साथ एक से अधिक श्रेणियां हैं I मैं सूत्र निम्नलिखित का उपयोग कर एक दस्तावेज़ में प्रत्येक पद के लिए आईडीएफ की गणना कर रहा हूँ:दस्तावेज़ वर्गीकरण

IDF(t,D)=log(Total Number documents/Number of Document matching term); 

मेरे प्रश्न हैं:

  1. क्या "कोर्पस में कुल संख्या दस्तावेजों" करता है मतलब है? क्या दस्तावेज किसी मौजूदा श्रेणी से या सभी उपलब्ध श्रेणियों से गिना जाता है?
  2. "दस्तावेज़ मिलान अवधि की संख्या" का क्या अर्थ है? क्या मिलान करने वाला शब्द वर्तमान श्रेणी से या सभी उपलब्ध श्रेणियों से गिना जाता है?

उत्तर

9

Total Number documents in Corpus केवल आपके कॉर्पस में मौजूद दस्तावेज़ों की मात्रा है। तो यदि आपके पास 20 दस्तावेज़ हैं तो यह मान 20 है।

Number of Document matching term इस बात की गिनती है कि t शब्द कितने दस्तावेज़ होते हैं। तो अगर आप कुल में 20 दस्तावेजों और अवधि t 15 दस्तावेजों के में होता है तो Number of Documents matching term के लिए मूल्य, 15.

इस उदाहरण के लिए मूल्य इस प्रकार IDF(t,D)=log(20/15) = 0.1249

अब हो सकता है अगर मैं सही हूँ है आपके पास प्रति दस्तावेज़ एकाधिक श्रेणियां हैं और आप इन श्रेणियों में से एक या अधिक के साथ नए दस्तावेज़ों को वर्गीकृत करने में सक्षम होना चाहते हैं। ऐसा करने का एक तरीका प्रत्येक श्रेणी के लिए एक दस्तावेज़ बनाना होगा। प्रत्येक श्रेणी-दस्तावेज़ में सभी ग्रंथों को रखना चाहिए जो इस श्रेणी के साथ लेबल किए गए हैं। फिर आप इन दस्तावेजों पर tf*idf कर सकते हैं।

एक नए दस्तावेज़ को वर्गीकृत करने का एक आसान तरीका तब प्रत्येक श्रेणी के लिए गणना की गई विभिन्न अवधि मानों का उपयोग करके क्वेरी के शब्द मानों को जोड़कर हासिल किया जा सकता है। वह श्रेणी जिसका शब्द मूल्य, उत्पाद की गणना करने के लिए उपयोग किया जाता है, जिसके परिणामस्वरूप उच्चतम परिणाम 1 स्थान पर होगा।

एक और संभावना क्वेरी में प्रत्येक शब्द के idf का उपयोग कर क्वेरी के लिए वेक्टर बनाने के लिए है। सभी शर्तों जो क्वेरी में नहीं होती हैं उन्हें 0 का मान दिया जाता है। क्वेरी-वेक्टर की तुलना प्रत्येक श्रेणी-वेक्टर के समानता के लिए की जा सकती है उदाहरण के लिए cosine similarity

Smoothing एक ऐसे प्रश्न में शब्दों से निपटने के लिए एक उपयोगी तकनीक भी है जो आपके कॉर्पस में नहीं होती है।

मैं क्रिस्टोफर डी मैनिंग, प्रभाकर राघवन और हिनरिक श्त्ज़ द्वारा "सूचना पुनर्प्राप्ति का परिचय" के sections 6.2 and 6.3 पढ़ने का सुझाव दूंगा।

+0

धन्यवाद..मुझे जवाब मिला। लेकिन क्या आप कृपया नए दस्तावेज़ को वर्गीकृत करने की व्याख्या कर सकते हैं? नए दस्तावेज़ के लिए मिलान श्रेणी कैसे प्राप्त करें? फिर मिलान करने के लिए नए दस्तावेज़ के लिए आवृत्ति वेक्टर कैसे बनाएं? .. –

+0

मैंने जानकारी को मेरे उत्तर में जोड़ा। – Sicco

+0

मदद के लिए धन्यवाद .. –

-1

मैं एक छोटे से पद अवधि आवृत्ति उलटा दस्तावेज़ आवृत्ति यहाँ का वर्णन लिखा है:

TF-आईडीएफ सबसे मौलिक दस्तावेज के वर्गीकरण में बड़े पैमाने पर इस्तेमाल मीट्रिक है: http://bigdata.devcodenote.com/2015/04/tf-idf-term-frequency-inverse-document.html

यहाँ पोस्ट से एक टुकड़ा है । आइए इन शर्तों को आज़माएं और परिभाषित करें:

टर्म आवृत्ति मूल रूप से दस्तावेज़ में दूसरे शब्दों की तुलना में किसी दस्तावेज़ में किसी निश्चित शब्द की घटना की आवृत्ति का महत्वपूर्ण है।

दूसरी तरफ व्यस्त दस्तावेज़ आवृत्ति किसी दिए गए संग्रह (दस्तावेजों के लिए जो हम विभिन्न श्रेणियों में वर्गीकृत करना चाहते हैं) के लिए सभी दस्तावेजों में शब्द की घटना का महत्वपूर्ण है।

संबंधित मुद्दे