2015-06-13 7 views
5

मैं हाइव का उपयोग करके एक नया हैडऑप-आधारित डेटा गोदाम तैयार कर रहा हूं और मैं सोच रहा था कि इस संदर्भ में क्लासिक स्टार/स्नोफ्लेक स्कीमा अभी भी "मानक" हैं या नहीं।क्या स्टार स्कीमा अभी भी एक बड़े डेटा-गोदाम के लिए आवश्यक है?

बिग डेटा सिस्टम अनावश्यकता को गले लगाते हैं ताकि पूरी तरह से सामान्यीकृत स्कीमा आमतौर पर खराब प्रदर्शन कर सकें (उदाहरण के लिए, एचबीएसई या कैसंद्रा जैसे नोएसक्यूएल डेटाबेस में)।

अभी भी हाइव के साथ स्टार-स्कीमा डेटा वेयरहाउस बनाने का सबसे अच्छा अभ्यास है?

क्या यह नए स्तंभ फ़ाइल प्रारूपों का शोषण करके पंक्ति-व्यापी (reduntant) तालिकाओं को बेहतर ढंग से डिजाइन कर रहा है?

+0

की उपयोगिता की चर्चा ऊपर लिखा है क्यों नहीं अमेज़न Redshift उपयोग करें, हम एक आधुनिक बड़ा डेटा DWH के बारे में बात कर रहे हैं तो क्या होगा? – Guy

+0

आपको अपने तथ्य और मंदांक की मात्रा लिखनी चाहिए – jangorecki

उत्तर

3

नोएसक्यूएल डेटाबेस के लिए डिज़ाइन करते समय आप क्वेरी के कुछ हिस्सों को प्रीप्रोसेसिंग करके एक विशिष्ट क्वेरी के लिए ऑप्टिमाइज़ करते हैं और इस प्रकार डेटा की एक डिमॉर्मलाइज्ड प्रति स्टोर करते हैं (यद्यपि क्वेरी-विशिष्ट तरीके से denormalized)।

दूसरी तरफ, स्टार स्कीमा एक सर्व-उद्देश्य denormalization है जो आमतौर पर उपयुक्त है।

जब आप हाइव का उपयोग करने की योजना बना रहे हैं, तो आप वास्तव में ऑप्टिमाइज़ेशन के लिए इसका उपयोग नहीं कर रहे हैं, लेकिन एसक्यूएल के सामान्य उद्देश्य के लिए (?) और इस तरह, मुझे लगता है कि स्टार स्कीमा अभी भी उपयुक्त है। गैर-एसक्यूएल इंटरफेस के साथ नोएसक्यूएल डीबी के लिए, हालांकि, मैं सुझाव दूंगा कि आप अधिक क्वेरी-विशिष्ट डिज़ाइन का उपयोग करें।

1

शामिल हैं बुराई हैं। विशेष रूप से हडोप पर जहां हम डेटा सह-इलाके की गारंटी नहीं दे सकते हैं, खासकर अगर हमें दो बड़ी टेबल में शामिल होने की आवश्यकता है। यह हैडोप और टेराडाटा, ग्रीनप्लम इत्यादि जैसे पारंपरिक एमपीपी के बीच अंतरों में से एक है। एमपीपी में मैं अपने क्लस्टर में सभी नोड्स में एक हैश कुंजी के आधार पर अपने डेटा को समान रूप से वितरित करता हूं। ऑर्डर और ऑर्डर_इटम टेबल के लिए प्रासंगिक पंक्तियां मेरे क्लस्टर में एक ही नोड्स पर समाप्त हो जाएंगी, जो कम से कम नेटवर्क में डेटा ट्रांसफर को खत्म कर देगी। हडोप में आप आदेश तालिका के अंदर ऑर्डर_इटम डेटा घोंसला करेंगे, जो जुड़ने की आवश्यकता को खत्म कर देगा।

यदि दूसरी ओर आपके पास एक छोटी लुकअप/आयाम तालिका है और एक बड़ी तथ्य तालिका है तो आप अपने क्लस्टर में सभी नोड्स में छोटी तालिका को प्रसारित कर सकते हैं जिससे नेटवर्क हस्तांतरण की आवश्यकता समाप्त हो जाती है।

संक्षेप में, स्टार स्कीमा अभी भी प्रासंगिक हैं लेकिन ज्यादातर तार्किक मॉडलिंग दृष्टिकोण से हैं। शारीरिक रूप से आप एक बड़ा कॉलमर संपीड़ित और घोंसला वाली तथ्य तालिका बनाने के लिए और भी denormalizing बंद बेहतर हो सकता है।

मैं एक पूर्ण ब्लॉग पोस्ट उद्देश्य और dimensional models on Hadoop and Big Data technologies

संबंधित मुद्दे