दस्तावेज़ वर्गीकरण

के लिए कैलकुलेटिंग आईडीएफ (व्यस्त दस्तावेज़ आवृत्ति) दस्तावेज़ वर्गीकरण में आईडीएफ (व्यस्त दस्तावेज़ आवृत्ति) की गणना करने में मुझे संदेह है। मेरे पास प्रशिक्षण के लिए कई दस्तावेजों के साथ एक से अधिक श्रेणियां हैं I मैं सूत्र निम्नलिखित का उपयोग कर एक दस्तावेज़ में प्रत्येक पद के लिए आईडीएफ की गणना कर रहा हूँ:दस्तावेज़ वर्गीकरण

IDF(t,D)=log(Total Number documents/Number of Document matching term);

मेरे प्रश्न हैं:

क्या "कोर्पस में कुल संख्या दस्तावेजों" करता है मतलब है? क्या दस्तावेज किसी मौजूदा श्रेणी से या सभी उपलब्ध श्रेणियों से गिना जाता है?
"दस्तावेज़ मिलान अवधि की संख्या" का क्या अर्थ है? क्या मिलान करने वाला शब्द वर्तमान श्रेणी से या सभी उपलब्ध श्रेणियों से गिना जाता है?

स्रोत

2012-08-14 vignesh kumar rathakumar

Total Number documents in Corpus केवल आपके कॉर्पस में मौजूद दस्तावेज़ों की मात्रा है। तो यदि आपके पास 20 दस्तावेज़ हैं तो यह मान 20 है।

Number of Document matching term इस बात की गिनती है कि t शब्द कितने दस्तावेज़ होते हैं। तो अगर आप कुल में 20 दस्तावेजों और अवधि t 15 दस्तावेजों के में होता है तो Number of Documents matching term के लिए मूल्य, 15.

इस उदाहरण के लिए मूल्य इस प्रकार IDF(t,D)=log(20/15) = 0.1249

अब हो सकता है अगर मैं सही हूँ है आपके पास प्रति दस्तावेज़ एकाधिक श्रेणियां हैं और आप इन श्रेणियों में से एक या अधिक के साथ नए दस्तावेज़ों को वर्गीकृत करने में सक्षम होना चाहते हैं। ऐसा करने का एक तरीका प्रत्येक श्रेणी के लिए एक दस्तावेज़ बनाना होगा। प्रत्येक श्रेणी-दस्तावेज़ में सभी ग्रंथों को रखना चाहिए जो इस श्रेणी के साथ लेबल किए गए हैं। फिर आप इन दस्तावेजों पर tf*idf कर सकते हैं।

एक नए दस्तावेज़ को वर्गीकृत करने का एक आसान तरीका तब प्रत्येक श्रेणी के लिए गणना की गई विभिन्न अवधि मानों का उपयोग करके क्वेरी के शब्द मानों को जोड़कर हासिल किया जा सकता है। वह श्रेणी जिसका शब्द मूल्य, उत्पाद की गणना करने के लिए उपयोग किया जाता है, जिसके परिणामस्वरूप उच्चतम परिणाम 1 स्थान पर होगा।

एक और संभावना क्वेरी में प्रत्येक शब्द के idf का उपयोग कर क्वेरी के लिए वेक्टर बनाने के लिए है। सभी शर्तों जो क्वेरी में नहीं होती हैं उन्हें 0 का मान दिया जाता है। क्वेरी-वेक्टर की तुलना प्रत्येक श्रेणी-वेक्टर के समानता के लिए की जा सकती है उदाहरण के लिए cosine similarity।

Smoothing एक ऐसे प्रश्न में शब्दों से निपटने के लिए एक उपयोगी तकनीक भी है जो आपके कॉर्पस में नहीं होती है।

मैं क्रिस्टोफर डी मैनिंग, प्रभाकर राघवन और हिनरिक श्त्ज़ द्वारा "सूचना पुनर्प्राप्ति का परिचय" के sections 6.2 and 6.3 पढ़ने का सुझाव दूंगा।

स्रोत

2012-08-14 09:18:10 Sicco

धन्यवाद..मुझे जवाब मिला। लेकिन क्या आप कृपया नए दस्तावेज़ को वर्गीकृत करने की व्याख्या कर सकते हैं? नए दस्तावेज़ के लिए मिलान श्रेणी कैसे प्राप्त करें? फिर मिलान करने के लिए नए दस्तावेज़ के लिए आवृत्ति वेक्टर कैसे बनाएं? .. –

मैंने जानकारी को मेरे उत्तर में जोड़ा। – Sicco

मदद के लिए धन्यवाद .. –

-1

मैं एक छोटे से पद अवधि आवृत्ति उलटा दस्तावेज़ आवृत्ति यहाँ का वर्णन लिखा है:

TF-आईडीएफ सबसे मौलिक दस्तावेज के वर्गीकरण में बड़े पैमाने पर इस्तेमाल मीट्रिक है: http://bigdata.devcodenote.com/2015/04/tf-idf-term-frequency-inverse-document.html

यहाँ पोस्ट से एक टुकड़ा है । आइए इन शर्तों को आज़माएं और परिभाषित करें:

टर्म आवृत्ति मूल रूप से दस्तावेज़ में दूसरे शब्दों की तुलना में किसी दस्तावेज़ में किसी निश्चित शब्द की घटना की आवृत्ति का महत्वपूर्ण है।

दूसरी तरफ व्यस्त दस्तावेज़ आवृत्ति किसी दिए गए संग्रह (दस्तावेजों के लिए जो हम विभिन्न श्रेणियों में वर्गीकृत करना चाहते हैं) के लिए सभी दस्तावेजों में शब्द की घटना का महत्वपूर्ण है।

स्रोत

2015-04-17 03:47:51

दस्तावेज़ वर्गीकरण

उत्तर

संबंधित मुद्दे