6

मूल प्रश्न को फ़ाइल दिया गया है जिसमें पिछले दिन 5 जीबी यूआरएल देखा जा रहा है, शीर्ष के लगातार यूआरएल खोजें। समस्या को अलग-अलग यूआरएल की घटनाओं की गिनती करने के लिए हैश मानचित्र का उपयोग करके हल किया जा सकता है और ओ (एन लॉग के) समय लेते हुए, न्यूनतम ढेर की मदद से शीर्ष के को ढूंढ सकता है।अंतिम दिन, या अंतिम घंटा, या अंतिम मिनट के लिए शीर्ष पर जाने वाले यूआरएल खोजें?

अब मैं सोच रहा हूं कि इनपुट असीमित ऑनलाइन डेटा स्ट्रीम (स्थिर फ़ाइल के बजाय) था, तो मैं अंतिम दिन के शीर्ष के यूआरएल को कैसे जान सकता हूं?

या क्या कोई ऐसा सुधार है जो मैं सिस्टम में कर सकता हूं जो मुझे अंतिम मिनट और अंतिम दिन और अंतिम घंटे गतिशील रूप से शीर्ष के यूआरएल प्राप्त करने की अनुमति देता है?

किसी भी संकेत की सराहना की जाएगी !!

+1

चेकआउट http://stackoverflow.com/a/10190836/404145 – DiveInto

उत्तर

1

आप एक संभाव्य जवाब यह है कि कुछ गलत प्रविष्टियों शामिल हो सकता है के लिए समझौता करने को तैयार हैं, तो आप निश्चित रूप से count-min sketch डेटा संरचना पर गौर करना चाहिए। यह विशेष रूप से संभवतः कम स्मृति के रूप में स्ट्रीम में लगातार तत्वों का अनुमान लगाने के लिए डिज़ाइन किया गया था, और अधिकांश कार्यान्वयन एक स्ट्रीम के बाहर शीर्ष के तत्वों के एक बहुत ही समय और अंतरिक्ष कुशल अनुमान का समर्थन करते हैं। इसके अलावा, संरचना आपको अंतरिक्ष उपयोग को ट्यून करने देती है, जो इन तरह की स्थितियों के लिए आदर्श बनाती है। आईआईआरसी Google इसका सबसे लगातार खोज प्रश्न निर्धारित करने के लिए इसका उपयोग करता है।

several implementations of this data structure ऑनलाइन उपलब्ध हैं।

आशा है कि इससे मदद मिलती है!

संबंधित मुद्दे