"बिग डेटा" कुछ हद तक अस्पष्ट शब्द है, तकनीकी निर्णय लेने से विपणन उद्देश्यों के लिए अधिक उपयोग किया जाता है। एक व्यक्ति जो "बड़ा डेटा" कहता है, वह एक सिस्टम पर दिन-प्रतिदिन के संचालन के लिए विचार कर सकता है।
अंगूठे का मेरा नियम यह है कि बड़ा डेटा शुरू होता है जहां आपके पास डेटा का एक कार्य सेट होता है जो एक ही सिस्टम पर मुख्य स्मृति में फिट नहीं होता है। कामकाजी सेट वह डेटा है जिसे आप किसी दिए गए समय पर सक्रिय रूप से काम कर रहे हैं। इसलिए, उदाहरण के लिए, यदि आपके पास एक फाइल सिस्टम है जो 10 टीबी डेटा स्टोर करता है, लेकिन आप संपादन के लिए वीडियो स्टोर करने के लिए इसका उपयोग कर रहे हैं, तो आपके संपादकों को किसी भी समय किसी भी सौ गिग की आवश्यकता हो सकती है; और वे आम तौर पर डिस्क के उस डेटा को स्ट्रीम कर रहे हैं, जिसके लिए यादृच्छिक-पहुंच की आवश्यकता नहीं होती है। लेकिन यदि आप एक पूर्ण 10 टीबी डेटा सेट के खिलाफ डेटाबेस क्वेरीज़ करने का प्रयास कर रहे हैं जो नियमित आधार पर बदल रहा है, तो आप डिस्क के उस डेटा को सेवारत नहीं करना चाहते हैं; जो "बड़ा डेटा" बनना शुरू होता है।
अंगूठे के मूल नियम के लिए, मैं अभी 2 टीबी रैम के लिए ऑफ-द-शेल्फ डेल सर्वर कॉन्फ़िगर कर सकता हूं।लेकिन आप एक सिस्टम में बहुत अधिक रैम की सामग्री के लिए एक पर्याप्त प्रीमियम का भुगतान करते हैं। एक सर्वर पर 512 जीबी रैम अधिक किफायती है, इसलिए आम तौर पर 2 टीबी के साथ एक मशीन की तुलना में 512 जीबी रैम के साथ 4 मशीनों का उपयोग करने के लिए यह अधिक लागत प्रभावी होगा। तो आप शायद कह सकते हैं कि 512 जीबी के कामकाजी सेट डेटा (डेटा जिसे आपको किसी भी दिन के आधार पर किसी भी गणना के लिए एक्सेस करने की आवश्यकता है) "बड़े डेटा" के रूप में योग्य होगा।
पारंपरिक डेटाबेस के विपरीत "बड़े डेटा" सिस्टम के लिए विकासशील सॉफ्टवेयर की अतिरिक्त लागत को देखते हुए, कुछ लोगों के लिए यह 2 टीबी सिस्टम में स्थानांतरित करने के लिए अधिक लागत प्रभावी हो सकता है, ताकि वे अपने सिस्टम को फिर से डिज़ाइन कर सकें कई प्रणालियों, इसलिए आपकी जरूरतों के आधार पर, 512 जीबी और 2 टीबी डेटा के बीच कहीं भी वह बिंदु हो सकता है जहां आपको "बड़े डेटा" सिस्टम में स्थानांतरित करने की आवश्यकता है।
मैं कोई तकनीकी निर्णय लेने के लिए "बड़ा डेटा" शब्द का उपयोग नहीं करता। इसके बजाए, अपनी वास्तविक जरूरतों को तैयार करें, और यह निर्धारित करें कि अब उन आवश्यकताओं को पूरा करने के लिए किस प्रकार की तकनीकों की आवश्यकता है। थोड़ा सा विकास पर विचार करें, लेकिन यह भी याद रखें कि सिस्टम अभी भी क्षमता में बढ़ रहे हैं; तो अधिक योजना बनाने की कोशिश मत करो। कई "बड़े डेटा" सिस्टम का उपयोग करना मुश्किल हो सकता है और अनावश्यक हो सकता है, इसलिए यदि आपको वास्तव में दर्जन या सैकड़ों प्रणालियों में अपना डेटा और गणना करने के लिए उन्हें आवश्यकता नहीं है, तो वे मूल्यवान होने से अधिक परेशानी हो सकते हैं।
स्रोत
2012-12-26 19:46:54
अगर आपको यह प्रश्न पूछना है, तो आपकी डेटा कितनी बड़ी नहीं है :-) –
नहीं, मैं जानना चाहता था कि हैडोप तकनीकों का उपयोग करने का निर्णय कैसे लें या नहीं। –
@ शिल यदि आप इसे जानना चाहते हैं, तो आपको यह निर्दिष्ट करना चाहिए कि आपकी आवश्यकताएं क्या हैं (आपको कितना डेटा काम करना है, आप किस प्रकार के प्रश्नों को करने का प्रयास कर रहे हैं), और उस विशिष्ट प्रश्न से पूछें, "क्या हैडोप की सिफारिश की जाएगी इस?" बस इतना पूछना कि "बड़ा डेटा" कितना डेटा गठित है, बहुत उपयोगी होने के लिए बहुत अस्पष्ट है। लोग अपने स्वयं के वर्कलोड के आधार पर विशेष संख्या उद्धृत कर सकते हैं, लेकिन यह आपके लिए लागू नहीं होगा। –