2012-04-25 11 views
18

मैंने डॉग कटिंग द्वारा पेपर पढ़ा; "Space optimizations for total ranking"।लुसेन का एल्गोरिदम

चूंकि इसे बहुत समय पहले लिखा गया था, मुझे आश्चर्य है कि एल्गोरिदम ल्यूसीन क्या उपयोग करता है (पोस्टिंग सूची ट्रैवर्सल और स्कोर गणना, रैंकिंग के संबंध में)।

विशेष रूप से, वर्णित कुल रैंकिंग एल्गोरिदम में प्रत्येक क्वेरी शब्द के लिए संपूर्ण पोस्टिंग सूची को घुमाने में शामिल होना शामिल है, इसलिए "पीले कुत्ते" जैसे बहुत सामान्य प्रश्नों के मामले में, 2 शब्दों में से कोई भी बहुत लंबी पोस्टिंग हो सकती है वेब खोज के मामले में सूची। क्या वे सभी वास्तव में वर्तमान लुसीन/सोलर में घुस गए हैं? या नियोजित सूची को कम करने के लिए कोई हेरिस्टिक है?

मामले में जब केवल शीर्ष के परिणाम लौटाए जाते हैं, तो मैं समझ सकता हूं कि कई मशीनों में पोस्टिंग सूची वितरित करना और फिर प्रत्येक से शीर्ष-के संयोजन करना काम करेगा, लेकिन अगर हमें "100 वें" परिणाम पृष्ठ ", यानी परिणाम 9 0 9 -1000 से रैंक किए गए, फिर प्रत्येक विभाजन को अभी भी शीर्ष 1000 का पता लगाना होगा, इसलिए विभाजन बहुत मदद नहीं करेगा।

कुल मिलाकर, लुसीन द्वारा उपयोग किए जाने वाले आंतरिक एल्गोरिदम पर कोई अद्यतित विस्तृत दस्तावेज है?

+0

इसके अतिरिक्त, कोई भी मोटे तौर पर जानता है (बेशक विवरण एक रहस्य है, लेकिन मुझे लगता है कि मुख्य विचार इन दिनों काफी आम होना चाहिए) और कैसे बहु और टर्म के मामलों में Google तेजी से रैंकिंग करता है? (यदि उनकी पोस्टिंग पेजरैंक ऑर्डर द्वारा क्रमबद्ध की जाती है, तो यह समझ में आता है कि एक एकल शब्द क्वेरी जल्दी से शीर्ष-के वापस लौटाएगी, लेकिन यदि यह बहु-अवधि है, तो उन्हें सम्मिलन सेट को खोजने के लिए संपूर्ण सूचियों को पार करना होगा, क्योंकि सूचियों को डॉकआईड द्वारा क्रमबद्ध नहीं किया जाता है, जैसा ल्यूसीन पेपर केस में) –

+0

मुझे नहीं पता कि यह वास्तव में कैसे काम करता है, लेकिन यदि आप प्रारंभिक क्वेरी समाप्ति करना चाहते हैं, तो आपको इंडेक्स ऑर्डर (डॉक्टर आईडी) मैच प्रासंगिकता (आपके पेजरैंक) मामला) आदेश, कम से कम एक सेगमेंट आधार पर। यह बहु-टर्म प्रश्नों के लिए आपकी समस्या का समाधान करेगा। – jpountz

उत्तर

30

मुझे ऐसे दस्तावेज से अवगत नहीं है, लेकिन चूंकि लुसीन ओपन-सोर्स है, इसलिए मैं आपको स्रोत कोड पढ़ने के लिए प्रोत्साहित करता हूं। विशेष रूप से, वर्तमान ट्रंक संस्करण में flexible indexing शामिल है, जिसका अर्थ है कि भंडारण और पोस्टिंग सूची ट्रैवर्सल को शेष कोड से डीकॉप्ल किया गया है, जिससे कस्टम कोडेक्स लिखना संभव हो जाता है।

आप मान्यताओं पोस्टिंग सूची ट्रेवर्सल के बारे में सही हैं, डिफ़ॉल्ट रूप से (यह अपने Scorer कार्यान्वयन पर निर्भर करता है) Lucene प्रत्येक प्रश्न में वर्तमान अवधि के लिए पूरी पोस्टिंग सूची को पार करता है और आकार कश्मीर का एक ढेर शीर्ष गणना करने के लिए में मिलान दस्तावेजों डालता है -के दस्तावेज़ (TopDocsCollector देखें)। तो 9 0 9 से 1000 तक के परिणाम लौटने से ल्यूसीन आकार 1000 के ढेर को तत्काल बना देता है। और यदि आप दस्तावेज़ द्वारा अपनी अनुक्रमणिका को विभाजित करते हैं (एक और दृष्टिकोण शब्द के अनुसार विभाजित किया जा सकता है), प्रत्येक शार्ड को सर्वर पर शीर्ष 1000 परिणाम भेजने की आवश्यकता होगी जो कि है परिणामों को विलय करने के लिए ज़िम्मेदार (उदाहरण के लिए सोलर QueryComponent देखें, जो एन से पी> एन से एक क्वेरी का अनुवाद 0 से पी sreq.params.set(CommonParams.START, "0"); से कई शार्ड अनुरोधों में करता है)। यही कारण है कि चरम पेजिंग के मामले में स्टैंडअलोन मोड की तुलना में सौर वितरित मोड में धीमा हो सकता है।

मैं Google कुशलतापूर्वक परिणाम स्कोर करने के लिए प्रबंधन करता है पता नहीं है, लेकिन ट्विटर एक paper on their retrieval engine Earlybird प्रकाशित जहां वे बताएं कि किस तरह वे आदेश पोस्टिंग सूची के कुशल विपरीत कालानुक्रमिक क्रम ट्रेवर्सल है, जो उन्हें सबसे वापस लौट सकते हैं करने के लिए Lucene समझौता हालिया ट्वीट्स प्रत्येक शब्द के लिए पूरी पोस्टिंग सूची को घुमाने के बिना किसी क्वेरी से मेल खाते हैं।

अद्यतन: मैं गूगलर Jeff Dean, जो बताते हैं कि कैसे गूगल अपनी बड़े पैमाने पर सूचना पुनर्प्राप्ति सिस्टम बनाया से इस presentation पाया। विशेष रूप से, यह शेरिंग रणनीतियों और पोस्टिंग एन्कोडिंग पोस्ट करने के बारे में बात करता है।

+0

उत्तर के लिए बहुत बहुत धन्यवाद, मैं ट्विटर लिंक को खोदने का प्रयास करूंगा ताकि यह देखने के लिए कि क्या मुझे अधिक संदर्भ –

+0

मिल सकता है यदि संपूर्ण पोस्टिंग सूची उलटी हुई है, ऐसा लगता है कि ल्यूसीन वेब-स्केल खोज के लिए वास्तव में व्यवहार्य नहीं है , चूंकि "पीले कुत्ते" जैसे कुछ दुनिया में अरबों वेब पृष्ठों से मेल खाते हैं। आक्रामक विभाजन के बाद भी, प्रत्येक बॉक्स पर पोस्टिंग को पार करने का समय बहुत लंबा होगा –

+0

शानदार सामान jpountz – Yavar

संबंधित मुद्दे