मैं एक ऐसी परियोजना पर काम कर रहा हूं जो बहुत बड़ी मात्रा में डेटा का विश्लेषण करने से संबंधित है, इसलिए मैंने हाल ही में मैपरेडस की खोज की, और इससे पहले कि मैं इसमें आगे बढ़ूं, मैं यह सुनिश्चित करना चाहता हूं कि मेरी अपेक्षाएं सही हों।MapReduce मेरे लिए सही है?
डेटा के साथ बातचीत वेब इंटरफेस से होगी, इसलिए प्रतिक्रिया समय यहां महत्वपूर्ण है, मैं 10-15 दूसरी सीमा सोच रहा हूं। मेरा डेटा मानने से पहले मैं किसी भी विश्लेषण करने से पहले वितरित फ़ाइल सिस्टम में लोड हो जाऊंगा, मैं किस प्रकार का प्रदर्शन कर सकता हूं?
मान लें कि मुझे एक साधारण 5 जीबी एक्सएमएल फ़ाइल को अच्छी तरह से फ़िल्टर करने की आवश्यकता है, इसमें काफी फ्लैट डेटा संरचना और 10,000,000 रिकॉर्ड हैं। और मान लें कि आउटपुट के परिणामस्वरूप 100,000 रिकॉर्ड होंगे। क्या 10 सेकंड संभव है?
यदि यह है, तो मैं किस प्रकार का हार्डवेयर देख रहा हूं? यदि नहीं, तो क्यों नहीं?
मैंने उदाहरण नीचे रखा, लेकिन अब मेरी इच्छा है कि मैंने नहीं किया। 5 जीबी सिर्फ एक नमूना था जिसके बारे में मैं बात कर रहा था, और हकीकत में मैं बहुत सारे डेटा से निपट रहा था। 5 जीबी दिन के एक घंटे के लिए डेटा हो सकता है, और मैं एक निश्चित मानदंड को पूरा करने वाले सभी रिकॉर्डों की पहचान करना चाहूंगा।
डेटाबेस वास्तव में मेरे लिए एक विकल्प नहीं है। मैं यह जानना चाहता था कि मैपरेडस का उपयोग करने से मैं सबसे तेज़ प्रदर्शन कर सकता हूं। क्या यह हमेशा मिनटों या घंटों में होता है? क्या यह कभी सेकंड नहीं है?
पर विचार करें मानचित्र को कम है कि डेटा के लिए बाहर एक अभिकलन भेजने के बारे में है (कई मशीनों है कि उनके टुकड़ा पर काम खत्म हो गया संग्रहीत)। एक एकल 5 जीबी फ़ाइल वास्तव में मॉडल फिट नहीं है। – z5h
MapReduce एक 5 जीबी फ़ाइल के लिए ओवरकिल है। आप इसे एक मशीन पर संभाल सकते हैं, खासकर यदि यह दिन में केवल एक बार बदल रहा है। इसके अलावा, MapReduce एक अवधारणा है, वास्तविक कार्यान्वयन नहीं। यदि आप इसका उपयोग करने जा रहे थे, तो आप विशेष कार्यान्वयन की जांच करना चाहेंगे। –
तो MapReduce (या किसी अन्य अवधारणा) उपयोग करने के लिए सही बात है विश्लेषण की तरह आपके मन में है, कितनी बार अपने डेटा परिवर्तन, क्या ढंग से पर निर्भर है, और पूर्व प्रसंस्करण की किस तरह संभव है। इससे पहले कि आप एक उपयोगी उत्तर प्राप्त करने की उम्मीद कर सकें, आपको निश्चित रूप से अधिक जानकारी प्रदान करनी होगी! –