वास्तव में खोज इंजन इन दस्तावेज़ सूचियों को मर्ज करें। वे अन्य तकनीकों का उपयोग करके अच्छा प्रदर्शन प्राप्त करते हैं, जिनमें से सबसे महत्वपूर्ण छंटनी होती है: उदाहरण के लिए, प्रत्येक शब्द के लिए दस्तावेज़ पेजरैंक को कम करने के क्रम में संग्रहीत किए जाते हैं, और परिणाम प्राप्त करने के लिए जिनके पास पहले 10 (जो इच्छा होगी) उपयोगकर्ता को दिखाया जा सकता है) आप पहले हजारों कुत्ते और बल्ले की सूचियों का एक छोटा सा हिस्सा पार कर सकते हैं। (और, ज़ाहिर है, वहाँ कैशिंग है, लेकिन वह बहुत क्वेरी निष्पादन एल्गोरिथ्म से संबंधित नहीं है)
इसके अलावा, सभी के बाद, नहीं कि कुत्तों के बारे में और चमगादड़ के बारे में कई दस्तावेजों देखते हैं: भले ही वह लाखों लोगों की है, यह बदल जाता है एक अच्छा कार्यान्वयन के साथ विभाजित सेकंड में।
पीएस मैंने अपने देश के अग्रणी खोज इंजन पर काम किया, हालांकि, हमारे प्रमुख खोज उत्पाद के बहुत इंजन में नहीं, लेकिन मैंने अपने डेवलपर्स से बात की और यह जानकर आश्चर्य हुआ कि क्वेरी निष्पादन एल्गोरिदम वास्तव में काफी मूर्ख हैं: यह पता चला है कि कोई भी स्क्वैश कर सकता है विशाल स्वीकार्य समय सीमाओं में गणना की मात्रा। यह बिल्कुल निश्चित रूप से अनुकूलित है, लेकिन कोई जादू नहीं है और कोई चमत्कार नहीं है।
आप क्या करेंगे, अगर वहाँ कई कारकों के बजाय सिर्फ घटना से विचार करने के लिए शब्दों की स्थिति की तरह अपेक्षाकृत करीब है, शीर्षक अधिक तरजीही आदि होने के लिए .. हैं आप विलय लगता है इन सभी चीजों में से अभी भी उचित समय में किया जा सकता है। – Boolean
काफी बोलते हुए, वे पेजरैंक के घटते क्रम में सभी क्वेरी शब्दों वाले दस्तावेजों को प्राप्त करते हैं और विभिन्न प्रजनन हेरिस्टिक को नियोजित करते समय प्रासंगिकता सूत्र (कई सैकड़ों या हजारों दस्तावेज़ों और क्वेरी-निर्भर कारकों का जटिल संयोजन) लागू करते हैं। । बाहर निकलता है यह उचित समय में किया जा सकता है। कंप्यूटर आजकल शक्तिशाली हैं। – jkff
शायद एक बड़ी समस्या यह है कि उन सूचियों को डिस्क से मेमोरी में कुशलतापूर्वक कैसे प्राप्त करें, लेकिन यह कुछ और है ... – ren