हे सब, बस Hadoop और उत्सुक mapreduce में सबसे अच्छा तरीका है अगर आपके लॉगफ़ाइल इस तरह देखा अद्वितीय विज़िटर की गणना करने के लिए किया जाएगा क्या पर शुरू हो रही है ...हडोप के साथ अद्वितीय आगंतुकों को गिनने का सबसे अच्छा तरीका क्या है?
DATE siteID action username
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview tom
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview bob
05-05-2010 siteA pageview mike
और प्रत्येक साइट आप पता लगाने के लिए करना चाहता था के लिए प्रत्येक साइट के लिए अद्वितीय आगंतुकों?
मैं सोच रहा था कि मैपर साइट आईडी \ टी उपयोगकर्ता नाम उत्सर्जित करेगा और reducer प्रति कुंजी अद्वितीय उपयोगकर्ता नामों का एक सेट() रखेगा और फिर उस सेट की लंबाई को उत्सर्जित करेगा। हालांकि यह स्मृति में लाखों उपयोगकर्ता नामों को संभावित रूप से संग्रहीत करेगा जो सही नहीं लगता है। किसी के पास एक बेहतर तरीका है?
मैं जिस तरह से अजगर स्ट्रीमिंग का उपयोग कर रहा हूँ
धन्यवाद