मुझे लगता है कि लोचदार खोज दस्तावेज आसानी से गलत व्याख्या की जा सकती है।
यहां "समानता" दस्तावेज़ों या फ़ील्ड की तुलना नहीं है बल्कि क्वेरी से मेल खाने वाले शब्दों के आधार पर मेल खाने वाले दस्तावेजों को स्कोर करने के लिए एक तंत्र है।
प्रलेखन राज्यों:
A similarity (scoring/ranking model) defines how matching documents are scored.
समानता एल्गोरिदम कि Elasticsearch समर्थन कोष (सूचकांक) में अवधि वितरण पर आधारित संभाव्य मॉडल हैं।
शब्द वैक्टरों के संबंध में, इसका भी गलत व्याख्या किया जा सकता है।
यहां "शब्द वैक्टर" दस्तावेज़ के नियमों के आंकड़ों का संदर्भ लेते हैं जिन्हें आसानी से पूछताछ की जा सकती है। ऐसा लगता है कि टर्म वेक्टर में किसी भी समानता माप को आपके आवेदन के बाद प्रश्न में किया जाना होगा। अवधि पर प्रलेखन वैक्टर राज्य:
Returns information and statistics on terms in the fields of a particular document.
आप एक performant (तेज) समानता एक बहुत बड़े कोष मीट्रिक की जरूरत है आप एक सूचकांक में संग्रहीत आपके दस्तावेजों के एक कम रैंक एम्बेडिंग की सोच सकते हैं लगभग निकटतम पड़ोसी खोजों के लिए। आपके केएनएन लुकअप के बाद, जो उम्मीदवार सेट को बहुत कम करता है, आप रैंकिंग के लिए अधिक महंगी मीट्रिक गणना कर सकते हैं। https://github.com/erikbern/ann-benchmarks
स्रोत
2016-09-14 03:47:15
मुझे आशा है कि मेरा उत्तर में मदद की, मुझे किसी भी प्रश्न दे:
यहाँ लगभग KNN समाधान के मूल्यांकन के लिए एक उत्कृष्ट संसाधन है। –
@ Michaelatqbox.io उत्तर ने जिस मुद्दे का सामना कर रहा हूं उसे हल नहीं किया। एमएलटी क्वेरी और एमएलटी दोनों एपीआई, आपको "करीबी" दस्तावेजों की खोज करने में मदद करते हैं। मैं दो दस्तावेजों के बीच निकटता को मापना चाहता हूं। एक को देखना चाहिए कि पहली समस्या अधिक कठिन है, लेकिन मेरे पास दूसरी समस्या को हल करने का कोई तरीका नहीं है। आपके उत्तर का इंतज़ार रहेगा। समस्या यहां भी लिखी गई है: http://grokbase.com/t/gg/elasticsearch/131b9aa8xg/term-vectors-for-computing-document-similarity –
जावन्ना के पास एमएलटी क्वेरी और एमएलटी एपीआई के बीच अंतर के बारे में एक अच्छी पोस्ट है । इससे मतभेदों को स्पष्ट करने में मदद मिलनी चाहिए और यह कैसे काम कर सकता है इस बारे में अधिक जानकारी देनी चाहिए। http://stackoverflow.com/a/15320512/3075507 –