Total Number documents in Corpus
केवल आपके कॉर्पस में मौजूद दस्तावेज़ों की मात्रा है। तो यदि आपके पास 20 दस्तावेज़ हैं तो यह मान 20
है।
Number of Document matching term
इस बात की गिनती है कि t
शब्द कितने दस्तावेज़ होते हैं। तो अगर आप कुल में 20 दस्तावेजों और अवधि t
15 दस्तावेजों के में होता है तो Number of Documents matching term
के लिए मूल्य, 15.
इस उदाहरण के लिए मूल्य इस प्रकार IDF(t,D)=log(20/15) = 0.1249
अब हो सकता है अगर मैं सही हूँ है आपके पास प्रति दस्तावेज़ एकाधिक श्रेणियां हैं और आप इन श्रेणियों में से एक या अधिक के साथ नए दस्तावेज़ों को वर्गीकृत करने में सक्षम होना चाहते हैं। ऐसा करने का एक तरीका प्रत्येक श्रेणी के लिए एक दस्तावेज़ बनाना होगा। प्रत्येक श्रेणी-दस्तावेज़ में सभी ग्रंथों को रखना चाहिए जो इस श्रेणी के साथ लेबल किए गए हैं। फिर आप इन दस्तावेजों पर tf*idf
कर सकते हैं।
एक नए दस्तावेज़ को वर्गीकृत करने का एक आसान तरीका तब प्रत्येक श्रेणी के लिए गणना की गई विभिन्न अवधि मानों का उपयोग करके क्वेरी के शब्द मानों को जोड़कर हासिल किया जा सकता है। वह श्रेणी जिसका शब्द मूल्य, उत्पाद की गणना करने के लिए उपयोग किया जाता है, जिसके परिणामस्वरूप उच्चतम परिणाम 1 स्थान पर होगा।
एक और संभावना क्वेरी में प्रत्येक शब्द के idf
का उपयोग कर क्वेरी के लिए वेक्टर बनाने के लिए है। सभी शर्तों जो क्वेरी में नहीं होती हैं उन्हें 0
का मान दिया जाता है। क्वेरी-वेक्टर की तुलना प्रत्येक श्रेणी-वेक्टर के समानता के लिए की जा सकती है उदाहरण के लिए cosine similarity।
Smoothing एक ऐसे प्रश्न में शब्दों से निपटने के लिए एक उपयोगी तकनीक भी है जो आपके कॉर्पस में नहीं होती है।
मैं क्रिस्टोफर डी मैनिंग, प्रभाकर राघवन और हिनरिक श्त्ज़ द्वारा "सूचना पुनर्प्राप्ति का परिचय" के sections 6.2 and 6.3 पढ़ने का सुझाव दूंगा।
धन्यवाद..मुझे जवाब मिला। लेकिन क्या आप कृपया नए दस्तावेज़ को वर्गीकृत करने की व्याख्या कर सकते हैं? नए दस्तावेज़ के लिए मिलान श्रेणी कैसे प्राप्त करें? फिर मिलान करने के लिए नए दस्तावेज़ के लिए आवृत्ति वेक्टर कैसे बनाएं? .. –
मैंने जानकारी को मेरे उत्तर में जोड़ा। – Sicco
मदद के लिए धन्यवाद .. –