मैंने डॉग कटिंग द्वारा पेपर पढ़ा; "Space optimizations for total ranking"।लुसेन का एल्गोरिदम
चूंकि इसे बहुत समय पहले लिखा गया था, मुझे आश्चर्य है कि एल्गोरिदम ल्यूसीन क्या उपयोग करता है (पोस्टिंग सूची ट्रैवर्सल और स्कोर गणना, रैंकिंग के संबंध में)।
विशेष रूप से, वर्णित कुल रैंकिंग एल्गोरिदम में प्रत्येक क्वेरी शब्द के लिए संपूर्ण पोस्टिंग सूची को घुमाने में शामिल होना शामिल है, इसलिए "पीले कुत्ते" जैसे बहुत सामान्य प्रश्नों के मामले में, 2 शब्दों में से कोई भी बहुत लंबी पोस्टिंग हो सकती है वेब खोज के मामले में सूची। क्या वे सभी वास्तव में वर्तमान लुसीन/सोलर में घुस गए हैं? या नियोजित सूची को कम करने के लिए कोई हेरिस्टिक है?
मामले में जब केवल शीर्ष के परिणाम लौटाए जाते हैं, तो मैं समझ सकता हूं कि कई मशीनों में पोस्टिंग सूची वितरित करना और फिर प्रत्येक से शीर्ष-के संयोजन करना काम करेगा, लेकिन अगर हमें "100 वें" परिणाम पृष्ठ ", यानी परिणाम 9 0 9 -1000 से रैंक किए गए, फिर प्रत्येक विभाजन को अभी भी शीर्ष 1000 का पता लगाना होगा, इसलिए विभाजन बहुत मदद नहीं करेगा।
कुल मिलाकर, लुसीन द्वारा उपयोग किए जाने वाले आंतरिक एल्गोरिदम पर कोई अद्यतित विस्तृत दस्तावेज है?
इसके अतिरिक्त, कोई भी मोटे तौर पर जानता है (बेशक विवरण एक रहस्य है, लेकिन मुझे लगता है कि मुख्य विचार इन दिनों काफी आम होना चाहिए) और कैसे बहु और टर्म के मामलों में Google तेजी से रैंकिंग करता है? (यदि उनकी पोस्टिंग पेजरैंक ऑर्डर द्वारा क्रमबद्ध की जाती है, तो यह समझ में आता है कि एक एकल शब्द क्वेरी जल्दी से शीर्ष-के वापस लौटाएगी, लेकिन यदि यह बहु-अवधि है, तो उन्हें सम्मिलन सेट को खोजने के लिए संपूर्ण सूचियों को पार करना होगा, क्योंकि सूचियों को डॉकआईड द्वारा क्रमबद्ध नहीं किया जाता है, जैसा ल्यूसीन पेपर केस में) –
मुझे नहीं पता कि यह वास्तव में कैसे काम करता है, लेकिन यदि आप प्रारंभिक क्वेरी समाप्ति करना चाहते हैं, तो आपको इंडेक्स ऑर्डर (डॉक्टर आईडी) मैच प्रासंगिकता (आपके पेजरैंक) मामला) आदेश, कम से कम एक सेगमेंट आधार पर। यह बहु-टर्म प्रश्नों के लिए आपकी समस्या का समाधान करेगा। – jpountz