2008-10-01 17 views
13

मुझे बहुत सारे MySQL डेटा मिल गए हैं जिन्हें मुझे रिपोर्ट जेनरेट करने की आवश्यकता है। यह ज्यादातर ऐतिहासिक डेटा है, इसलिए यह ज्यादा नहीं बदलेगा, लेकिन यह 20-30 गीगाबाइट्स में आसानी से वजन करता है और बढ़ने की उम्मीद है। वर्तमान में मेरे पास php स्क्रिप्ट का संग्रह है जो कुछ जटिल प्रश्न और आउटपुट सीएसवी और एक्सेल फाइलें करेगा। मैं बुकमार्क किए गए प्रश्नों के साथ phpMyAdmin का भी उपयोग करता हूं। मैं मैन्युअल रूप से पैरामीटर बदलने के लिए उन्हें संपादित करें। डेटा की मात्रा बढ़ रही है और जिन लोगों को इसकी पहुंच की आवश्यकता है, उनकी संख्या भी बढ़ रही है, इसलिए मैं इस स्थिति में सुधार करने का समय बना रहा हूं।क्या कोई डेटा गोदाम ढांचे हैं?

मैंने दूसरे दिन डेटा वेयरहाउसिंग के बारे में पढ़ना शुरू किया और ऐसा लगता है कि यह एक ऐसा क्षेत्र है जो मुझे करने की ज़रूरत है। मैंने somegoodarticles पढ़ा है और यहां तक ​​कि एक पुस्तक पर भी प्रतीक्षा कर रहा हूं। मुझे लगता है कि मुझे इस तरह के सिस्टम क्या करते हैं और क्या संभव है पर एक संभाल रहा है।

मेरे डेटा के लिए एक रिपोर्टिंग सिस्टम बनाना हमेशा एक टोडो सूची पर रहा है, लेकिन हाल ही में मुझे लगा कि यह एक बेहद विशिष्ट प्रोग्रामिंग उद्यम होगा। चूंकि अब मुझे पता है कि डाटा वेयरहाउसिंग एक आम बात है, मुझे लगता है कि विकास में आसानी के लिए कुछ प्रकार की रिपोर्टिंग/वेयरहाउसिंग फ्रेम उपलब्ध हैं। मैं खुशी से लिखने के लिए इंटरफेस और स्क्रिप्ट लिखना चाहता हूं और ईमेल रिपोर्ट और जैसे प्रश्न लिखने और संबंध स्थापित करने के लिए छड़ी और छड़ी।

मैं ज्यादातर एक दीपक लड़का रहा हूं, लेकिन मैं भाषा या प्लेटफॉर्म स्विच करने से ऊपर नहीं हूं। मुझे बस एक और मजबूत समाधान की आवश्यकता है क्योंकि स्क्रिप्ट से मेरी एक अच्छी तरह से स्केल नहीं करती है।

तो शुरू करने के लिए एक अच्छी जगह कहां है?

उत्तर

7

मैं वहां {बजट, व्यापार उपयोगिता फ़ंक्शन, टाइम फ्रेम} स्पेक्ट्रम पर कुछ बिंदुओं पर चर्चा करूंगा। एक ही स्थान में केवल डेटा रखरखाव

के लिए सामान्यीकृत - सुविधा के लिए, के डेटा गोदाम के लिए
स्रोत डेटा

    WikipediaDataWarehouseArticle

  • आपरेशनल डेटाबेस परत में वास्तुकला अवधारणा आप से जुड़ा हुआ अनुसरण करने दें

  • डेटा एक्सेस लेयर
    आपके स्रोत डेटा का रूपांतरण आपकी सूचनात्मक पहुंच परत में बदलें।
    ईटीएल उपकरण इस परत में गोदाम में डेटा निकालने, बदलने, लोड करने के लिए।

  • सूचना पहुंच परत
      • रिपोर्ट-की सुविधा डेटा संरचना
          डाटा यहाँ नहीं रखा गया है।यह केवल अपने स्रोत डेटा का एक प्रतिबिंब
          इसलिए, denormalized ढांचे (डुप्लिकेट वाले, लेकिन व्यवस्थित व्युत्पन्न डेटा)
          आमतौर पर सबसे अधिक यहाँ
      • रिपोर्टिंग टूल
          कैसे प्रभावी रहे है क्या आप वास्तव में अपने उपयोगकर्ताओं को डेटा
          • प्री-डिब्बाबंद रिपोर्ट (सरल)तक पहुंचने की अनुमति देते हैं
          • अधिक गतिशील टुकड़ा और पासा एक्सेस विधियों

        डेटा इस में रिपोर्टिंग और विश्लेषण और रिपोर्टिंग के लिए उपकरण और विश्लेषण करने के डेटा
        गिरावट के लिए पहुँचा परत। और डिजाइन पद्धति के बारे में इनमन-किमबाल मतभेद,
        बाद में विकिपीडिया लेख में चर्चा की गई, इस परत के साथ करना है।

  • मेटाडाटा परत

रोल अपनी खुद की (लो-एंड)
(स्वचालन, संगठन, आदि की सुविधा) बहुत कम बाहर की जेब लागत के लिए, बस के लिए की जरूरत को पहचानने denormalized संरचनाओं उन है कि यह कुछ क्षमता

उपयोग नहीं कर रहे खरीद सकते हैं बॉलगेम में (कुछ व्यय) की आवश्यकता
आप हमें की जरूरत नहीं है ई बल्ले से सीधे एक मंच की सभी कार्यक्षमता।
IMO, हालांकि, आप एक मंच है कि आप जानते हैं बढ़ेगा पर होना चाहता हूँ, और अत्यधिक प्रतिस्पर्धी और मजबूत बनाने बीआई वातावरण में, कि चार उद्यम मेगा विक्रेताओं में से एक (मेरी राय)

    हो रहा है
  • माइक्रोसॉफ्ट (हमारे 110 कर्मचारी फर्म के मंच)
  • एसएपी
  • ओरेकल
  • आईबीएम

    BiMarketStateArticle

मेरी फर्म इस चरण में है, एसक्यूएल सर्वर इंटीग्रेशन सर्विसेज (एसएसआईएस) और ओपन सोर्स के कुछ वैकल्पिक उपयोग द्वारा प्रस्तावित ईटीएल क्षमता का उपयोग करके, लेकिन प्रैक्टिस लाइसेंस में "डेटा एक्सेस लेयर" में टैलेंड उत्पाद की आवश्यकता होती है। , एक असामान्य रिपोर्टिंग संरचना (मूल रूप से मूल SQL सर्वर डेटाबेस में लागू), और SQL सर्वर रिपोर्टिंग सेवा (एसएसआरएस) बड़े पैमाने पर स्वचालित (आपके कौशल के आधार पर) पूर्व-निर्दिष्ट रिपोर्टों के उत्पादन के लिए। ध्यान दें कि एक एसएसआरएस "रिपोर्ट" केवल एक (स्केलेबल) एक्सएमएल कॉन्फ़िगरेशन/विनिर्देश है जो एसएसआरएस इंजन के माध्यम से रनटाइम पर प्रदान की जाती है। एक्सेल फ़ाइल में निर्यात जैसे विकल्प सरल विकल्प हैं।

गंभीर प्रतिबद्धता (कुछ महत्वपूर्ण मानव प्रतिबद्धता आवश्यक नहीं) है कि हम अभी तक/डाटा खनन/गतिशील टुकड़ा करने की क्रिया का उपयोग करने एसक्यूएल सर्वर विश्लेषण सेवाओं के क्षमताओं dicing है ऊपर
सूचना। हम उस पर काम कर रहे हैं, लेकिन अब "डेटा एक्सेस लेयर" में हमारे डेटा सफाई की गुणवत्ता में सुधार करने पर केंद्रित है।

मुझे आशा है कि इससे आपको यह देखने में मदद मिलेगी कि कहां दिखना शुरू करना है।

3

Pentaho ने उत्पादों का एक सुंदर व्यापक सूट रखा है। उत्पाद "मुक्त" हैं, लेकिन एक बार जब आप अपनी पहचान जानकारी पर जाल डालते हैं तो सामान्य भारी बिक्री के लिए तैयार रहें।

मुझे वास्तव में उन्हें फैलाने का मौका नहीं मिला है क्योंकि हम एक दुखी अंत से दूसरी ओर माइक्रोसॉफ्ट की दुकान हैं।

+0

आप अपनी माइक्रोसॉफ्ट दुकान पर क्या उपयोग करते हैं? – reconbot

3

मुझे लगता है कि आपको पहले किमबाल और इनमोन की जांच करनी चाहिए और देखें कि क्या आप किसी विशेष तरीके से अपने डेटा वेयरहाउस से संपर्क करना चाहते हैं। किमबाल, विशेष रूप से, वेयरहाउस के मॉडलिंग और निर्माण के लिए एक बहुत अच्छा ढांचा प्रस्तुत करता है।

+1

किमबाल की डेटा वेयरहाउस किताबें शायद आपको आवश्यक कुछ पुस्तकों में से एक हैं। – Codewerks

+0

यह है! मेरे पास डेटा वेयरहाउस टूलकिट है और यह अद्भुत है। – reconbot

1

इसे थोड़ी देर में अपडेट नहीं किया गया है लेकिन ActiveWarehouse नामक एक अच्छा डेटा वेयरहाउसिंग/ईटीएल रूबी पैकेज है।

लेकिन मैं Pentaho products की जांच करता हूं जैसे कि निक ने किसी अन्य उत्तर में उल्लेख किया है। इसे आसानी से आपके पास मौजूद डेटा की मात्रा को संभालना चाहिए और आपको अपने डेटा को टुकड़ा करने और पासा करने के अधिक तरीके प्रदान कर सकते हैं, जैसा कि आपने कभी कल्पना की थी।

+0

सक्रिय वेयरहाउस लोग एनोथी ईडन द्वारा एक ग्रेट लेख से लिंक करते हैं जो अब काम नहीं करता है, यहां संग्रह है। http://web.archive.org/web/20070510141152/http://anthonyeden.com/2006/12/20/activewarehouse-example-with-rails-svn-logs – reconbot

0

किमबॉल डाटा वेयरहाउसिंग के लिए आसान तरीका है।

हम डेटा को स्थानांतरित करने के लिए इनफॉर्मेटिका का उपयोग करते हैं, लेकिन यह डीडब्लू चीजों को डिफ़ॉल्ट रूप से अनुक्रमणित नहीं करता है।
मुझे एक डीडब्ल्यू उपकरण के रूप में व्हीलस्केप लाल का विचार पसंद है और एक ईटीएल उपकरण की आवश्यकता को कम करने के लिए एमएस एसक्यूएल के लिंक्ड सर्वर का उपयोग करना पसंद है।

3

ऐसे कई टूल हैं जो डेटा वेयरहाउस को डिजाइन करने, कार्यान्वित करने और प्रबंधित करने की प्रक्रिया बनाने की कोशिश करते हैं और उनमें से प्रत्येक की अपनी ताकत और कमजोरियां होती हैं और अक्सर काफी अलग-अलग मूल्य बिंदु होती हैं। यदि आप किमबाल और/या इनमन शिविरों से युद्ध के सिद्धांतों का अच्छा ज्ञान रखते हैं, तो कवर के तहत आप हमेशा बेहतरीन होने जा रहे हैं। SCD घटकों आदि और वंश ट्रैकिंग -

साथ ही उपकरण Kalido और Wherescape लाल (जो बहुत अलग तरीके से समान काम करते हैं), की तरह ईटीएल प्लेटफार्मों से कई अब कार्यान्वयन की गधा काम के लिए अच्छा में निर्मित समर्थन है।

बेस्ट हालांकि उपकरण आप के हाथ में प्रयोग की जाने वाली के रूप में इन सभी को देखने के लिए, शिल्पकार, वे कुछ आसान चीजें और भी आसान (या यहां तक ​​कि तुच्छ) बनाने के लिए, कुछ कठिन चीजों को आसान लेकिन कुछ बातें वे सिर्फ वे में जिस तरह से मिलता है आईएमएचओ;) पहले पद्धति और सिद्धांतों को जानें और उनकी अच्छी समझ प्राप्त करें और फिर आपको पता चलेगा कि कौन से टूल्स आपके किटबैग से आवेदन करें और जब ...

1

सबसे अच्छा ढांचा जो आप वर्तमान में प्राप्त कर सकते हैं Anchor Modeling है।
यह सामान्य संरचना और डेटा को ऐतिहासिक बनाने के लिए अंतर्निहित क्षमता के कारण काफी जटिल लग सकता है।
मॉडलिंग तकनीक भी ईआरडी से काफी अलग है।
लेकिन आप अंत तक एसक्यूएल कोड के साथ 3NF विचारों और सहित सभी db वस्तुओं उत्पन्न करने के लिए:

  • सम्मिलित/अपडेट चलाता द्वारा नियंत्रित किया
  • क्वेरी इतिहास में किसी भी बिंदु/रेंज
  • आप एप्लिकेशन डेवलपर नहीं होगा अंतर्निहित 6 एनएफ एंकर मॉडल देखें।

तकनीक खुली है और इस समय नामुमकिन है।

यदि आपके पास एएम प्रश्न होगा तो आप उस टैग पर पूछना चाहेंगे।

संबंधित मुद्दे