2010-01-02 15 views
43

यहां एक छोटी सी पृष्ठभूमि:डेटा वेयरहाउस विचार: कब और क्यों?

मुझे what a data warehouse is, कम या ज्यादा पता है। मैंने डाटा वेयरहाउसिंग पर कई दर्जन गाइड पढ़े हैं, मैंने एसएसएएस के साथ खेला है, मुझे पता है कि स्टार स्कीमा और आयाम तालिका और एक तथ्य तालिका क्या है, मुझे पता है कि ईटीएल क्या है और इसे कैसे किया जाए। यह "कैसे" प्रश्न या ट्यूटोरियल के लिए अनुरोध नहीं है।

मेरे मुद्दा सामग्री मैं डेटा भंडारण पर पढ़ा है के सभी एक डेटा गोदाम के निर्माण के लिए औचित्य से अधिक चमक रहा है कि है। वे सभी रूपरेखात्मक रूप से, या कुछ मामलों में शब्दशः "" वाक्यांश से शुरू होते हैं, इसलिए आपने डेटा वेयरहाउस बनाने का निर्णय लिया है ... "सिवाय इसके कि मैंने अभी तक यह निर्णय नहीं लिया है।

तो मुझे आशा है कि एसओ सदस्य मुझे कुछ प्रकार के अर्ध-उद्देश्य परीक्षण के साथ इंगित कर सकते हैं या मदद कर सकते हैं। कुछ जो मैं किसी विशेष प्रणाली के अनुकूल हो सकता हूं और "हाँ, हमें डेटा वेयरहाउस चाहिए" या "नहीं, आज का भुगतान बहुत छोटा होगा।" मुझे लगता है कि विशिष्ट प्रश्नों का उत्तर देने में सक्षम होना चाहिए:

  1. किस बिंदु पर डेटा वेयरहाउस पर विचार करने के लिए एक विकल्प है? दूसरे शब्दों में, क्या बताए गए संकेत, मीट्रिक, या अन्य मानदंडों को मैं देखना चाहूंगा जिसके लिए यह संकेत हो सकता है कि एक मानक लेनदेन वातावरण अब पर्याप्त नहीं है?

  2. पूर्ण-डेटा डेटा गोदाम के विकल्प क्या हैं? लेनदेन डेटाबेस में denormalization और बोग-मानक प्रतिकृति "रिपोर्ट सर्वर" दो हैं जो दिमाग में आते हैं; क्या डीडब्ल्यू में आने से पहले मुझे कोई अन्य खोजना चाहिए?

  3. डाटा वेयरहाउस विकल्प विकल्पों से बेहतर क्यों है? अगर जवाब है, "यह निर्भर करता है", तो यह किस पर निर्भर करता है?

  4. जब नहीं होना चाहिए, तो मैं डेटा वेयरहाउस बनाने का प्रयास करता हूं? मुझे संदर्भ के बावजूद "सर्वोत्तम अभ्यास" के रूप में घोषित कुछ भी संदेह है। निश्चित रूप से कुछ परिदृश्य होना चाहिए जहां एक डीडब्ल्यू गलत विकल्प है - वे क्या हैं?

  5. क्या कोई व्यावहारिक उदाहरण मैं उन सिस्टमों को देख सकता हूं जो डेटा वेयरहाउस पेश करके सुधार किए गए थे? कुछ ऐसा जो मुझे समझाएगा, अंत तक, किस तरह के निर्णय या विश्लेषण के लिए उन्हें गोदाम की आवश्यकता थी, उन्होंने फैसला किया कि इसमें क्या रखा जाए, और कैसे गोदाम बड़े पर्यावरण में फिट हो गया? मैं नहीं चाहता हूं कि "एडवेंचरवर्क्स डेटाबेस से बाहर निकलें" - कार्यान्वयन मेरे लिए अप्रासंगिक है, मुझे विनिर्देशों और डिजाइन और समग्र विचार प्रक्रिया शामिल थीं।

मैं आम तौर पर बहु-पार्टर्स से पूछने की कोशिश नहीं करता लेकिन मुझे लगता है कि ये सभी बहुत करीबी से संबंधित हैं। मैं कम से कम पहले 4 प्रश्नों को संबोधित करने वाले किसी भी उत्तर को स्वीकार करने के लिए तैयार हूं, हालांकि अंतिम वास्तव में मेरे दिमाग में इसे क्रिस्टलाइज करने में मदद करेगा। लिंक ठीक हैं अगर किसी के बारे में पहले से ही लिखा गया है, जब तक कि वे उचित रूप से संक्षिप्त और विशिष्ट हैं (राल्फ किमबाल के होम पेज से लिंक = सहायक नहीं)।

आशा है कि मैंने प्रश्न स्पष्ट कर दिया है - आपके उत्तरों के लिए अग्रिम धन्यवाद!

उत्तर

38

मैं देखता हूं कि मैं आपके प्रश्नों का उत्तर देने के लिए अपनी पूरी कोशिश कर सकता हूं या नहीं।

1. डेटा गोदाम का निर्माण करने के लिए क्या विकल्प है? दूसरे शब्दों में, क्या बताए गए संकेत, मेट्रिक्स, या अन्य मानदंड मुझे होना चाहिए, जो कि को इंगित कर सकता है कि एक मानक लेनदेन पर्यावरण अब पर्याप्त नहीं है?

ए। यदि आपको लगता है कि रिपोर्टिंग और निगरानी आपके उत्पादन प्रणाली और/या ऑफ़लाइन डेटा स्टोर के प्रदर्शन को खराब कर रही है।

बी। यदि आपको लगता है कि आपके व्यवसाय के सवालों के जवाब प्राप्त करने के लिए हर बार बहुत जटिल एसक्यूएल बनाना आवश्यक है।

सी। यदि आपको लगता है कि हर बार जब आप अपने लेनदेन स्कीमा में बदलाव करते हैं, तो आपको वापस जाना होगा और अपने सभी रिपोर्टिंग प्रश्नों को फिर से काम करना होगा।

डी। यदि आप एकाधिक स्रोतों से डेटा एकत्र करना चाहते हैं।

2. पूर्ण-डेटा डेटा गोदाम के विकल्प क्या हैं? लेनदेन डेटाबेस में डेटाबेस और बोग-मानक दोहराया गया "रिपोर्ट सर्वर" दो दिमाग में आता है; क्या अन्य हैं जिन्हें मुझे डीडब्ल्यू करने के लिए पहले खोजना चाहिए?

3. डेटा विकल्प वेयरहाउस विकल्पों के मुकाबले बेहतर क्यों है? यदि उत्तर है, "यह निर्भर करता है", तो यह पर निर्भर करता है?

मैं इन्हें एक साथ जवाब दूंगा। मैं एक डेटा वेयरहाउस के बारे में नहीं सोचूंगा क्योंकि सभी या कुछ भी उद्यम नहीं है। यह केवल एक संक्षिप्त वाक्यांश है जिसका अर्थ है "अपने डेटा को इस तरह से संग्रहीत करना जो आपको व्यवसायिक प्रश्नों का अधिक आसानी से और त्वरित उत्तर देने की अनुमति देता है।"

लेनदेन संबंधी डेटाबेस अनुप्रयोगों के साथ कुशलता से इंटरफेस करने के लिए डिज़ाइन किए गए हैं। डेटा गोदामों, डेटा मार्ट्स, परिचालन डेटा स्टोर और रिपोर्टिंग टेबल लोगों के साथ कुशलता से इंटरफेस करने के लिए बनाए जाते हैं, अगर यह समझ में आता है।

4. मुझे डेटा वेयरहाउस बनाने का प्रयास क्यों नहीं करना चाहिए? मैं संदर्भ के बावजूद को "सर्वोत्तम अभ्यास" के रूप में घोषित किया गया है। निश्चित रूप से कुछ परिदृश्य होना चाहिए जहां एक डीडब्ल्यू गलत विकल्प है - वे क्या हैं?

अच्छा सवाल। यदि आपका लेनदेन प्रणाली आपको अपने व्यवसाय में पर्याप्त अंतर्दृष्टि प्रदान करता है, तो आपको शायद वेयरहाउसिंग की आवश्यकता नहीं है।

यदि आपके पास केवल डेटा का एक स्रोत है और प्रदर्शन कोई समस्या नहीं है, तो आप शायद साधारण रिपोर्टिंग टेबल बनाने से अंतर्दृष्टि प्राप्त कर सकते हैं।

वहाँ 5.Are किसी भी व्यावहारिक उदाहरण मैं प्रणाली है कि एक डेटा गोदाम शुरू करने से सुधार हुआ थे की देखो सकता है? कुछ ऐसा जो मुझे समझा जाएगा, एंड-टू-एंड, क्या निर्णय या विश्लेषण वे के लिए गोदाम, कि वे किस तरह यह में क्या रखा करने का फैसला किया, और कैसे गोदाम में बड़ा फिटिंग समाप्त की जरूरत के सॉर्ट करता वातावरण? मैं एक काल्पनिक "के एक घन AdventureWorks डेटाबेस से बाहर करते हैं" नहीं करना चाहता - कार्यान्वयन मेरे लिए अप्रासंगिक है, मैं विनिर्देशों और डिजाइन और समग्र सोचा प्रक्रिया है कि शामिल थे में दिलचस्पी रखता हूँ।

यह एक बड़ा सवाल है जो मुझे आवंटित किए जाने से कहीं अधिक जगह ले जाएगा।

इस पर, मैं आपको कुछ स्थानों पर इंगित कर सकता हूं जो आपको ढूंढने वाली अंतर्दृष्टि प्रदान कर सकते हैं।

  • ब्रूस उलेरी द्वारा "एक डेटा वेयरहाउस लागू करना: एक पद्धति जो काम करती है" एक पुस्तक है जो एक डेटा गोदाम बनाने के लिए एक व्यक्ति की यात्रा दस्तावेज करती है। यह अत्यधिक पॉलिश नहीं है, जो इसे और यथार्थवाद देता है। यह एक पत्रिका की तरह पढ़ता है जिसमें कई मॉडल और अन्य दृश्य हैं जो उनके प्रयासों को बहुत अच्छी तरह से चित्रित करते हैं।
  • लारिसा मॉस द्वारा "बिजनेस इंटेलिजेंस रोडमैप"। सामान्य किराया। एक उच्च स्तर पर एक बीआई अभ्यास के निर्माण की प्रक्रिया के माध्यम से आप चलता है।
  • स्टीव विलियम्स द्वारा "बिजनेस इंटेलिजेंस का लाभ प्रभाव" कई केस स्टडीज देता है जो डेटा गोदामों के निर्माण का मूल्य दिखाते हैं।
+1

बहुत अच्छा ... मैं प्रश्न के लिए एक लिंक जोड़ूंगा 5. एमएस प्रोजेक्ट रियल (http://technet.microsoft.com/en-us/library/cc966416.aspx) देखें। यह तर्कसंगत/आलोचक –

+0

के साथ काफी बड़े डीडब्ल्यूएच के व्यावहारिक कार्यान्वयन (डेटा/ईटीएल के साथ) है, मुझे इन सवालों के मुकाबले इन दिनों बहुत कम मिलता है, लेकिन यह प्रतिक्रिया के माध्यम से बहुत अच्छा विचार है। – m1nkeh

2

किस बिंदु पर डेटा वेयरहाउस पर विचार करने के लिए एक विकल्प है? दूसरे शब्दों में, क्या बताए गए संकेत, मीट्रिक, या अन्य मानदंडों को मैं देखना चाहूंगा जिसके लिए यह संकेत हो सकता है कि एक मानक लेनदेन वातावरण अब पर्याप्त नहीं है?

जब आप देखते हैं कि लेनदेन संबंधी डेटा स्टोर में रिपोर्टिंग और विश्लेषण गतिविधियों को निष्पादित करना दोनों के लिए हानिकारक था, तो मैं डेटा वेयरहाउस की अनुशंसा करता हूं।

पूर्ण-डेटा डेटा गोदाम के विकल्प क्या हैं? लेनदेन डेटाबेस में denormalization और बोग-मानक प्रतिकृति "रिपोर्ट सर्वर" दो हैं जो दिमाग में आते हैं; क्या डीडब्ल्यू में आने से पहले मुझे कोई अन्य खोजना चाहिए?

मेरे पास यहां पेश करने के लिए कुछ भी नहीं है। मैं कहूंगा कि लेन-देन और रिपोर्टिंग डेटाबेस को ध्यान में रखना मेरे लिए समझदार लगता है, भले ही आप इसे गोदाम कहते हैं या नहीं। डेटा खनन एक बहुत सीपीयू गहन गतिविधि हो सकती है।

डाटा वेयरहाउस विकल्प विकल्पों से बेहतर क्यों है? अगर जवाब है, "यह निर्भर करता है", तो यह किस पर निर्भर करता है?

मेरे पास यहां पेश करने के लिए कुछ भी नहीं है।

मुझे डेटा गोदाम बनाने का प्रयास क्यों नहीं करना चाहिए? मुझे संदर्भ के बावजूद "सर्वोत्तम अभ्यास" के रूप में घोषित कुछ भी संदेह है। निश्चित रूप से कुछ परिदृश्य होना चाहिए जहां एक डीडब्ल्यू गलत विकल्प है - वे क्या हैं?

मैं कहूंगा कि यदि आपको लंबे इतिहास को रखने की आवश्यकता नहीं है, तो डेटा के गहन विश्लेषण नहीं कर रहे हैं, और आपकी रिपोर्टिंग आवश्यकताएं समय-समय पर किसी विज्ञापन की क्वेरी तक सीमित हैं, तो शायद एक डेटा गोदाम आवश्यक नहीं है।

क्या कोई व्यावहारिक उदाहरण है जो मैं उन सिस्टमों को देख सकता हूं जो डाटा वेयरहाउस पेश करके सुधार किए गए थे? कुछ ऐसा जो मुझे समझाएगा, अंत तक, किस तरह के निर्णय या विश्लेषण के लिए उन्हें गोदाम की आवश्यकता थी, उन्होंने फैसला किया कि इसमें क्या रखा जाए, और कैसे गोदाम बड़े पर्यावरण में फिट हो गया? मैं नहीं चाहता हूं कि "एडवेंचरवर्क्स डेटाबेस से बाहर निकलें" - कार्यान्वयन मेरे लिए अप्रासंगिक है, मुझे विनिर्देशों और डिज़ाइनों और समग्र विचार प्रक्रिया में रूचि है।

मेरे नियोक्ता के पास आने से पहले कई वर्षों तक डेटा गोदामों का उपयोग किया जाता है, इसलिए मैं आने से पहले क्या चीजें पसंद नहीं कर सकता था।

2

मेरे अनुभव से, डेटा वेयरहाउसिंग के बारे में सोचने के लिए पहला संकेत तब होता है जब आपके पास एक लेनदेन डेटाबेस होता है (या विकसित हो रहा है) और उपयोगकर्ता बहुत सारी रिपोर्टिंग और डेटा इतिहास आवश्यकताओं को जोड़ना शुरू करते हैं। जो हमेशा बहुत सुंदर है। एक लेनदेन प्रणाली को डिजाइन करने की कोशिश करने के बजाय अलग-अलग डेटा वेयरहाउस या रिपोर्टिंग डेटाबेस रखना हमेशा आसान होता है जो रिपोर्टिंग आवश्यकताओं को नियंत्रित करता है जो उपयोगकर्ताओं के पास हमेशा होता है। एक लेनदेन प्रणाली में इतिहास संग्रह (व्यापार संस्थाओं के लिए) जटिलता जोड़ता है और एक डेटाबेस को bloats जो संभव के रूप में उत्तरदायी होना चाहिए।

फ्लिप पक्ष पर, मैं बड़ी कंपनियों में रहा हूं जहां कई समूहों ने डेटा गोदामों का निर्माण किया क्योंकि ब्याज का डेटा कई प्रणालियों में फैल गया था और इसलिए पूछना मुश्किल था।समस्या यह थी कि प्रत्येक समूह ने अपना स्वयं का डेटा गोदाम बनाया क्योंकि कंपनी के सभी मौजूदा गोदामों में जानकारी का सही सबसेट नहीं था, या डेटा मॉडल था जिसे गैर-इष्टतम या गलत माना जाता था। इसने स्थिति को और भी अधिक अलग डेटा सिस्टम बनाकर खराब कर दिया जो तुलना करना मुश्किल था।

3
  1. आप एक datawarehouse निर्माण, जब निम्न criterias के दो से मेल खाते हैं पर विचार करना चाहिए:

    • डेटा
    • कई बड़ी जटिल चयन के विशाल राशि (संभवतः कुछ आवेषण की तुलना में, अद्यतन और हटा देता है) कि अभी लंबे समय तक के लिए ले निष्पादित करने के लिए (और लिखने के लिए complecated कर रहे हैं) विभिन्न प्रणालियों से
    • डाटा
  2. संयुक्त करने के लिए की जरूरत है
  3. यह वास्तव में सवाल है कि आप डेटा वेयरहाउस पर क्या विचार करते हैं। कई मामलों में आप धीरे-धीरे ओएलटीपी सिस्टम से कुछ रिपोर्टों के साथ एक पूर्ण उड़ा डाटावायरहाउस में स्थानांतरित कर सकते हैं, जब तक कि आप एक रिलेशनल डेटाबेस प्रबंधन प्रणाली से चिपके रहें। सबसे पहले पहली तथ्य तालिका बनाने के लिए, और आयाम के लिए सामान्यीकृत टेबल का उपयोग करना जारी रख सकते हैं। फिर गेम में अधिक तथ्यों, अधिक तथ्य सारणी या समर्पित आयाम तालिकाओं को जोड़ना। पहले एक ही डेटाबेस (या शामिल सिस्टम के डेटाबेस में से एक) में, संभवतः बाद में एक अलग डेटाबेस में जा रहा है।

  4. एक पूर्ण डाटावायरहाउस (अलग डेटाबेस, स्टार स्कीमा) चुनिंदा बयानों को ट्यून करने के लिए सबसे अच्छे विकल्प प्रदान करता है, एक विशेष प्रणाली पर जाने से शुरू होता है। यह ओएलटीपी सिस्टम से भी साफ़ रूप से decoupled है। स्कीमा डिज़ाइन को सोचें, लेकिन सीपीयू, आई/ओ और मेमोरी और संगठनात्मक संसाधन जैसे संसाधन, जैसे कि नए रिलीज के शेड्यूलिंग। बेशक यह बहुत काम है जिसे आपको संभवतः आवश्यकता नहीं है।

  5. यह ऊपर दिए गए उत्तरों में है: सिर्फ इसलिए कि आपके पास जटिल प्रश्नों का एक मुट्ठी भर है, इसका मतलब यह नहीं है कि आपको डीडब्ल्यूएच बनाना चाहिए, अन्य मानदंडों के लिए समान है, यदि वे अलगाव में आते हैं।

  6. यहां बहुत कुछ नहीं दे सकता है, लेकिन सलाह: चुस्त हो जाओ। डीडब्ल्यूएच की आवश्यकताएं उपयोगकर्ताओं की संभावनाओं पर अत्यधिक निर्भर करती हैं। आवश्यकताओं के लिए बदलने की संभावना है। डेटाबेस के साथ स्वचालित परीक्षण एक दर्द है, लेकिन किसी भी उचित परीक्षण के बिना उत्पादन प्रणाली में चारों ओर बेवकूफ बनाना बुरा है।

4
  1. एक DW का मुख्य उद्देश्य गति-अप करने के लिए (आसान बनाने) रिपोर्टिंग और विश्लेषणात्मक है। यह डेटा के स्लाइसिंग और डाइसिंग को किसी भी तरह से सक्षम करता है जिस पर कोई व्यवसाय उपयोगकर्ता सोच सकता है।

  2. पहले चरण डीडब्ल्यू के लिए, आप बस किमबाल स्टार स्कीमा को कार्यान्वित कर सकते हैं और उसके खिलाफ एसक्यूएल क्वेरी चला सकते हैं। यदि यह अभी भी बहुत धीमा साबित होता है, तो पूर्व-गणना वाले समेकन (क्यूब्स) के बारे में सोचना शुरू करें।

  3. डीडब्लू के खिलाफ जानकारी का टुकड़ा और मूल्य निर्धारण सामान्यीकृत डीबी के मुकाबले आसान है। प्रतिकृति रिपोर्ट सर्वर प्रदर्शन में सुधार करेगा, लेकिन स्लाइसिंग और डाइसिंग को सरल नहीं करेगा। यह भी ध्यान रखें कि डीडब्ल्यू व्यावसायिक उपयोगकर्ताओं से संबंधित है, इसलिए किसी भी समय विभिन्न स्लाइस/पासा विचारों के साथ आने के लिए उन पर निर्भर है - आईटी लोगों को केवल पर्यावरण प्रदान करना चाहिए जिसमें ऐसा कुछ संभव है।

  4. यदि आप अपने परिचालन तंत्र पर समय-समय पर कुछ रिपोर्ट चलाते हैं और प्रदर्शन से संतुष्ट हैं, तो डीडब्ल्यू की कोई आवश्यकता नहीं है।

  5. मेरा पूरा अनुभव उन प्रणालियों के साथ है जहां व्यापार उपयोगकर्ता धीमे रिपोर्ट और "जटिल प्रश्न" लिखने में असमर्थता के बारे में शिकायत करते हैं, जबकि उत्पादन लोग शिकायत करते हैं कि डेटाबेस रिपोर्टिंग के कारण गिर गया है। सभी मामलों में एक सरल किमबाल स्टार और कैश और स्नैपशॉट वाले एक रिपोर्ट सर्वर काफी अच्छे थे।

-1

"मुझे लगता है कि कुछ परियोजनाएं क्यों विफल होती हैं?"

वहाँ पाँच प्राथमिक कारण हैं:

  • आईटी विभाग और व्यापार उपयोगकर्ताओं के बीच साझेदारी का अभाव;
  • गलत डेटा गोदाम वास्तुकला;
  • पर्याप्त अनुभवी लोग नहीं;
  • अनुचित योजना, जैसे एक सिद्ध पद्धति का उपयोग करने में विफलता और यह सुनिश्चित करने की योजना है कि कोई विवरण छोड़ा न जाए;
  • और रक्तस्राव-एज प्रौद्योगिकी के आधार पर।
0

डीडब्ल्यू पर विचार किया जा सकता है, यदि कोई लंबी अवधि से 'लेनदेन प्रणाली' का उपयोग कर रहा है। बाद में, उन्हें एहसास हुआ कि व्यवसाय के विभिन्न डेटा पैटर्न निर्धारित करने के लिए उन्हें कुछ डेटा खनन करने की आवश्यकता है। और अंत में, निर्धारित डेटा पैटर्न की मदद से, कोई कंपनी के लाभ में और निर्णय लेने के लिए शीर्ष प्रबंधन में मदद करना चाहता है।एक ETL मंच

  1. और डेटाबेस डेटाबेस के लिए निर्णय लिया जाना चाहिए:

    निम्नलिखित चरण डेटा वेयर हाउस के निर्माण के लिए हाथ में लिया जाना चाहिए।

  2. एसएसआरएस, टैबलेट इत्यादि जैसे एक रिपोर्टिंग टूल को विज़ुअलाइज़ेशन के लिए चुना जाना आवश्यक है।
  3. कोई भी आगे के उपयोग के लिए डेटा विश्लेषणात्मक भाषा जैसे आर का चयन कर सकता है।
  4. अंत में, यह डेटा डेटा वेयर हाउस और रिपोर्टिंग टूल को विकसित करने में मदद करेगा।
संबंधित मुद्दे