मैं रूप में डिस्क पर tuples की एक बड़ी अनुक्रम (t1, k1) (टी 2, k2) ... (तमिलनाडु, केएन)डिस्कवर में समय-समय पर पैटर्न के एक बड़े डेटा-सेट
टीआई एक monotonically बढ़ती टाइमस्टैम्प है और की एक कुंजी है (यदि आवश्यक हो तो एक निश्चित लंबाई स्ट्रिंग मान लें)। न तो टीआई और न ही अद्वितीय होने की गारंटी है। हालांकि, अद्वितीय टीआईएस और किस की संख्या बहुत बड़ी है (लाखों)। n स्वयं बहुत बड़ा है (100 मिलियन +) और के आकार (लगभग 500 बाइट्स) स्मृति में सब कुछ स्टोर करना असंभव बनाता है।
मैं इस अनुक्रम में कुंजी की आवधिक घटनाओं को जानना चाहता हूं।
उदाहरण के लिए, अगर मैं अनुक्रम (1, क) (2, ख) (3, ग) (4, ख) (5, क) (6, ख) है (7, घ) (8, ख) (9, क) (10, ख)
एल्गोरिथ्म फेंकना चाहिए (क, 4) और (ख, 2)। यह 4 और बी की अवधि के साथ होता है 2.
यदि मैं सभी चाबियों का हैश बनाता हूं और प्रत्येक कुंजी के लगातार टाइमस्टैम्प और उसी के एक विचलन के बीच अंतर का औसत संग्रह करता हूं , मैं एक पास करने में सक्षम हो सकता हूं, और केवल उन लोगों की रिपोर्ट कर सकता हूं जिनके पास एक स्वीकार्य std विचलन (आदर्श, 0) है। हालांकि, इसके लिए प्रति अद्वितीय कुंजी एक बाल्टी की आवश्यकता होती है, जबकि अभ्यास में, मेरे पास बहुत कम आवधिक पैटर्न हो सकते हैं। कोई बेहतर तरीका?
यदि टीआई एकान्त रूप से बढ़ रहे हैं तो वे अद्वितीय नहीं होंगे? – mtrw
मोनोटोनिक बढ़ते कार्यों में कमी नहीं आ रही है। इस मामले में, इसका मतलब टी (i) <= t (i + 1) होगा। – andand