2014-04-18 7 views
5

में औसत दस्तावेज़ की लंबाई मैं ओकापी बीएमएस 25 मॉडल का अध्ययन कर रहा हूं। मैं सब कुछ समझता हूं लेकिन दो भ्रम। दस्तावेज़ लंबाई (डीएल) और औसत दस्तावेज़ लंबाई (avdl) की गणना करते समय। मैंने पाया दस्तावेज़ लंबाईओकापी बीएम 25

enter image description here

है तो यह एक विशेष दस्तावेज में अपने कीवर्ड्स/पदों की एक योग है। लेकिन जब मैं विकी के डीईएफ़ देखें:

enter image description here

तो | डी | शब्दों में दस्तावेज डी की लंबाई है (यानी कुल शब्दों की गणना का सारांश है)। अब सवाल यह है कि वास्तव में डीएल क्या है?

अब, दूसरा सवाल avdl की गणना कैसे करें? (बस गणना (doc1 + doc2 + ... n)/N जहां संग्रह में मेरा कुल कोई दस्तावेज नहीं है? (और avdl पूरे संग्रह के लिए तय किया गया है?)

उत्तर

6

Integrating the Probabilistic Model BM25/BM25F into Lucene में जोक्विन पेरेज़-इग्लेसियस के अनुसार, स्कोर फ़ंक्शन आर परिभाषित किया जाना चाहिए के रूप में पालन:

enter image description here

ऐसे

रूप
  • occurs_t^dd में t की अवधि आवृत्ति,
  • है
  • l_d दस्तावेज़ d लंबाई है।
  • avl_d संग्रह
  • k_1 साथ दस्तावेज़ औसत लंबाई एक नि: शुल्क पैरामीटर आम तौर पर 2 और [0,1] (आमतौर पर 0.75) में b है।

0 से b असाइन करना सामान्यीकरण की प्रक्रिया से बचने के बराबर है और इसलिए दस्तावेज़ की लंबाई अंतिम स्कोर को प्रभावित नहीं करेगी।

यदि b 1 लेता है, तो हम पूर्ण लंबाई सामान्यीकरण करेंगे।

enter image description here

जहां N दस्तावेज़ की संख्या संग्रह और df में है दस्तावेजों जहाँ शब्द t प्रतीत होता है की संख्या है।

+3

वास्तव में अच्छा है जब कोई गणित को समझाने के लिए समय लेता है। चीयर्स –

+0

आईडी (टी) आर (क्यू, डी) फॉर्मूला में कहां से खाता है? इसका उपयोग कहां किया जाता है? – PaulSchell

संबंधित मुद्दे