2014-04-24 6 views
13

मैं elasticsearch में अनुक्रमित दो दस्तावेज़ों के बीच समानता की गणना करना चाहता हूं। मुझे पता है कि यह शब्द वैक्टर का उपयोग कर ल्यूसीन में किया जा सकता है। ऐसा करने का सीधा तरीका क्या है?लोचदार खोज में दस्तावेज़ समानता

मैंने पाया एक समानता मॉड्यूल कर नहीं है कि वास्तव में इस: http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/index-modules-similarity.html

मैं अपने सिस्टम में इस एकीकृत करते हैं? मैं elasticsearch कमांड को कॉल करने के लिए pyelasticsearch का उपयोग कर रहा हूँ, लेकिन यदि आवश्यक हो तो मैं समानता के लिए आरईएसटी एपीआई का उपयोग करने के लिए खुला हूं।

+0

मुझे आशा है कि मेरा उत्तर में मदद की, मुझे किसी भी प्रश्न दे:

यहाँ लगभग KNN समाधान के मूल्यांकन के लिए एक उत्कृष्ट संसाधन है। –

+0

@ Michaelatqbox.io उत्तर ने जिस मुद्दे का सामना कर रहा हूं उसे हल नहीं किया। एमएलटी क्वेरी और एमएलटी दोनों एपीआई, आपको "करीबी" दस्तावेजों की खोज करने में मदद करते हैं। मैं दो दस्तावेजों के बीच निकटता को मापना चाहता हूं। एक को देखना चाहिए कि पहली समस्या अधिक कठिन है, लेकिन मेरे पास दूसरी समस्या को हल करने का कोई तरीका नहीं है। आपके उत्तर का इंतज़ार रहेगा। समस्या यहां भी लिखी गई है: http://grokbase.com/t/gg/elasticsearch/131b9aa8xg/term-vectors-for-computing-document-similarity –

+0

जावन्ना के पास एमएलटी क्वेरी और एमएलटी एपीआई के बीच अंतर के बारे में एक अच्छी पोस्ट है । इससे मतभेदों को स्पष्ट करने में मदद मिलनी चाहिए और यह कैसे काम कर सकता है इस बारे में अधिक जानकारी देनी चाहिए। http://stackoverflow.com/a/15320512/3075507 –

उत्तर

5

मुझे लगता है कि लोचदार खोज दस्तावेज आसानी से गलत व्याख्या की जा सकती है।

यहां "समानता" दस्तावेज़ों या फ़ील्ड की तुलना नहीं है बल्कि क्वेरी से मेल खाने वाले शब्दों के आधार पर मेल खाने वाले दस्तावेजों को स्कोर करने के लिए एक तंत्र है।

प्रलेखन राज्यों:

A similarity (scoring/ranking model) defines how matching documents are scored.

समानता एल्गोरिदम कि Elasticsearch समर्थन कोष (सूचकांक) में अवधि वितरण पर आधारित संभाव्य मॉडल हैं।

शब्द वैक्टरों के संबंध में, इसका भी गलत व्याख्या किया जा सकता है।

यहां "शब्द वैक्टर" दस्तावेज़ के नियमों के आंकड़ों का संदर्भ लेते हैं जिन्हें आसानी से पूछताछ की जा सकती है। ऐसा लगता है कि टर्म वेक्टर में किसी भी समानता माप को आपके आवेदन के बाद प्रश्न में किया जाना होगा। अवधि पर प्रलेखन वैक्टर राज्य:

Returns information and statistics on terms in the fields of a particular document.

आप एक performant (तेज) समानता एक बहुत बड़े कोष मीट्रिक की जरूरत है आप एक सूचकांक में संग्रहीत आपके दस्तावेजों के एक कम रैंक एम्बेडिंग की सोच सकते हैं लगभग निकटतम पड़ोसी खोजों के लिए। आपके केएनएन लुकअप के बाद, जो उम्मीदवार सेट को बहुत कम करता है, आप रैंकिंग के लिए अधिक महंगी मीट्रिक गणना कर सकते हैं। https://github.com/erikbern/ann-benchmarks

संबंधित मुद्दे