2012-12-26 10 views
11

बिगडाटा के रूप में वर्गीकृत करने के लिए कितना डेटा योग्यता प्राप्त करता है?"बिगडाटा" कितना बड़ा डेटा है?

डेटा के किस आकार के साथ कोई फैसला कर सकता है कि यह समय हैडोप जैसी तकनीकों के लिए जाने और वितरित कंप्यूटिंग की शक्ति का उपयोग करने का समय है?

मेरा मानना ​​है कि इन प्रौद्योगिकियों के लिए जाने में एक निश्चित प्रीमियम है, तो यह सुनिश्चित करने के लिए कि बिगडाटा विधियों का उपयोग मौजूदा सिस्टम का लाभ उठाने जा रहे हैं?

+2

अगर आपको यह प्रश्न पूछना है, तो आपकी डेटा कितनी बड़ी नहीं है :-) –

+0

नहीं, मैं जानना चाहता था कि हैडोप तकनीकों का उपयोग करने का निर्णय कैसे लें या नहीं। –

+1

@ शिल यदि आप इसे जानना चाहते हैं, तो आपको यह निर्दिष्ट करना चाहिए कि आपकी आवश्यकताएं क्या हैं (आपको कितना डेटा काम करना है, आप किस प्रकार के प्रश्नों को करने का प्रयास कर रहे हैं), और उस विशिष्ट प्रश्न से पूछें, "क्या हैडोप की सिफारिश की जाएगी इस?" बस इतना पूछना कि "बड़ा डेटा" कितना डेटा गठित है, बहुत उपयोगी होने के लिए बहुत अस्पष्ट है। लोग अपने स्वयं के वर्कलोड के आधार पर विशेष संख्या उद्धृत कर सकते हैं, लेकिन यह आपके लिए लागू नहीं होगा। –

उत्तर

9

Bigdata के लिए विकी पेज से उद्धृत करने के लिए:

जब यह दुकान में मुश्किल हो जाता है, खोज, हमारे पारंपरिक डेटाबेस प्रबंधन उपकरण, का उपयोग कर विश्लेषण, शेयर आदि डेटा की एक निश्चित राशि है कि बड़े और जटिल डेटासेट को बिगदाता कहा जाता है।

असल में, यह सभी रिश्तेदार है। बिगडाटा को डेटासेट के प्रबंधन के संगठन की क्षमताओं के आधार पर क्या माना जाता है। कुछ संगठनों के लिए, पहली बार सैकड़ों गीगाबाइट डेटा का सामना करना डेटा प्रबंधन विकल्पों पर पुनर्विचार करने की आवश्यकता को ट्रिगर कर सकता है। दूसरों के लिए, डेटा आकार एक महत्वपूर्ण विचार बनने से पहले दस या टेराबाइट ले सकता है।

डेटा की मात्रा बिगडाटा को परिभाषित करने में महत्वपूर्ण तत्वों में से एक है। Variety डेटा और velocity पर डेटा डेटा बढ़ाना बिगडाटा होने के लिए डेटा सेट को परिभाषित करने में अन्य दो प्रमुख तत्व हैं।

डेटा में Variety का मतलब है कई अलग अलग डेटा और फ़ाइल प्रकार जो विश्लेषण किया है और तरीकों से संसाधित जो इस किस्म के पारंपरिक संबंधपरक databases.Some उदाहरण के सीमा से बाहर है जाने की आवश्यकता हो सकती है हो रही ध्वनि और फिल्म फ़ाइलें, चित्र, दस्तावेजों में शामिल , भू-स्थानिक डेटा, वेब लॉग, और पाठ तार।

Velocity डेटा में परिवर्तन की गति के बारे में है और महत्वपूर्ण मूल्य उत्पन्न करने के लिए इसे कितनी जल्दी संसाधित किया जाना चाहिए। पारंपरिक प्रौद्योगिकियां विशेष रूप से उच्च-वेग डेटा को संग्रहीत करने और उपयोग करने के लिए उपयुक्त रूप से उपयुक्त होती हैं। तो नए दृष्टिकोण की जरूरत है। यदि प्रश्न में डेटा बनाया गया है और बहुत तेज़ी से एकत्रित होता है और पैटर्न और समस्याओं को उजागर करने के लिए तेज़ी से उपयोग किया जाना चाहिए, तो वेग जितना अधिक होगा और आपको बिगडाटा समस्या होने की अधिक संभावना होगी।

अगर आप 'लागत प्रभावी' समाधान की तलाश में हैं, तो आप amazon's EMR का पता लगा सकते हैं।

+0

हम आपको अमर धन्यवाद। तो मूल रूप से यह सभी व्यक्तिपरक है। –

+0

हाँ बहुत ज्यादा। – Amar

+0

और हाँ हम पहले ही ईएमआर का उपयोग करते हैं। लेकिन ऐसी कई अन्य चीजें हैं जो हम अब ईएमआर में जाने की योजना बना रहे हैं और इसलिए सभी कारकों को ध्यान में रखते हुए अंतर्दृष्टि की तलाश में थे। –

12

"बिग डेटा" कुछ हद तक अस्पष्ट शब्द है, तकनीकी निर्णय लेने से विपणन उद्देश्यों के लिए अधिक उपयोग किया जाता है। एक व्यक्ति जो "बड़ा डेटा" कहता है, वह एक सिस्टम पर दिन-प्रतिदिन के संचालन के लिए विचार कर सकता है।

अंगूठे का मेरा नियम यह है कि बड़ा डेटा शुरू होता है जहां आपके पास डेटा का एक कार्य सेट होता है जो एक ही सिस्टम पर मुख्य स्मृति में फिट नहीं होता है। कामकाजी सेट वह डेटा है जिसे आप किसी दिए गए समय पर सक्रिय रूप से काम कर रहे हैं। इसलिए, उदाहरण के लिए, यदि आपके पास एक फाइल सिस्टम है जो 10 टीबी डेटा स्टोर करता है, लेकिन आप संपादन के लिए वीडियो स्टोर करने के लिए इसका उपयोग कर रहे हैं, तो आपके संपादकों को किसी भी समय किसी भी सौ गिग की आवश्यकता हो सकती है; और वे आम तौर पर डिस्क के उस डेटा को स्ट्रीम कर रहे हैं, जिसके लिए यादृच्छिक-पहुंच की आवश्यकता नहीं होती है। लेकिन यदि आप एक पूर्ण 10 टीबी डेटा सेट के खिलाफ डेटाबेस क्वेरीज़ करने का प्रयास कर रहे हैं जो नियमित आधार पर बदल रहा है, तो आप डिस्क के उस डेटा को सेवारत नहीं करना चाहते हैं; जो "बड़ा डेटा" बनना शुरू होता है।

अंगूठे के मूल नियम के लिए, मैं अभी 2 टीबी रैम के लिए ऑफ-द-शेल्फ डेल सर्वर कॉन्फ़िगर कर सकता हूं।लेकिन आप एक सिस्टम में बहुत अधिक रैम की सामग्री के लिए एक पर्याप्त प्रीमियम का भुगतान करते हैं। एक सर्वर पर 512 जीबी रैम अधिक किफायती है, इसलिए आम तौर पर 2 टीबी के साथ एक मशीन की तुलना में 512 जीबी रैम के साथ 4 मशीनों का उपयोग करने के लिए यह अधिक लागत प्रभावी होगा। तो आप शायद कह सकते हैं कि 512 जीबी के कामकाजी सेट डेटा (डेटा जिसे आपको किसी भी दिन के आधार पर किसी भी गणना के लिए एक्सेस करने की आवश्यकता है) "बड़े डेटा" के रूप में योग्य होगा।

पारंपरिक डेटाबेस के विपरीत "बड़े डेटा" सिस्टम के लिए विकासशील सॉफ्टवेयर की अतिरिक्त लागत को देखते हुए, कुछ लोगों के लिए यह 2 टीबी सिस्टम में स्थानांतरित करने के लिए अधिक लागत प्रभावी हो सकता है, ताकि वे अपने सिस्टम को फिर से डिज़ाइन कर सकें कई प्रणालियों, इसलिए आपकी जरूरतों के आधार पर, 512 जीबी और 2 टीबी डेटा के बीच कहीं भी वह बिंदु हो सकता है जहां आपको "बड़े डेटा" सिस्टम में स्थानांतरित करने की आवश्यकता है।

मैं कोई तकनीकी निर्णय लेने के लिए "बड़ा डेटा" शब्द का उपयोग नहीं करता। इसके बजाए, अपनी वास्तविक जरूरतों को तैयार करें, और यह निर्धारित करें कि अब उन आवश्यकताओं को पूरा करने के लिए किस प्रकार की तकनीकों की आवश्यकता है। थोड़ा सा विकास पर विचार करें, लेकिन यह भी याद रखें कि सिस्टम अभी भी क्षमता में बढ़ रहे हैं; तो अधिक योजना बनाने की कोशिश मत करो। कई "बड़े डेटा" सिस्टम का उपयोग करना मुश्किल हो सकता है और अनावश्यक हो सकता है, इसलिए यदि आपको वास्तव में दर्जन या सैकड़ों प्रणालियों में अपना डेटा और गणना करने के लिए उन्हें आवश्यकता नहीं है, तो वे मूल्यवान होने से अधिक परेशानी हो सकते हैं।

+0

हां इसे मिला। धन्यवाद। –

संबंधित मुद्दे