2010-12-22 9 views
8

मैं इस सवाल को एक प्रणाली को डिजाइन करने के तरीके पर व्यावहारिक सलाह की तलाश में हूं।एक विशाल डेटा सेट की सटीकता एकत्रित करने, बनाए रखने और सुनिश्चित करने के लिए सर्वोत्तम प्रथाएं क्या हैं?

amazon.com और पैंडोरा जैसी साइटें अपने मुख्य व्यवसाय को चलाने के लिए विशाल डेटा सेट रखती हैं और बनाए रखती हैं। उदाहरण के लिए, अमेज़ॅन (और हर दूसरी प्रमुख ई-कॉमर्स साइट) में बिक्री के लिए लाखों उत्पाद हैं, उन उत्पादों की छवियां, मूल्य निर्धारण, विनिर्देश इत्यादि आदि

तृतीय पक्ष विक्रेताओं से आने वाले डेटा को अनदेखा करना और उपयोगकर्ता द्वारा उत्पन्न सामग्री को "सामान" कहीं से आना पड़ा और किसी के द्वारा बनाए रखा जाता है। यह भी अविश्वसनीय रूप से विस्तृत और सटीक है। कैसे? वह यह कैसे करते हैं? क्या डेटा-एंट्री क्लर्क की सिर्फ एक सेना है या क्या उन्होंने गंदे काम को संभालने के लिए सिस्टम तैयार किए हैं?

मेरी कंपनी एक ऐसी ही स्थिति में है। हम मोटर वाहन भागों और कारों के फिट होने के लिए एक विशाल (10 लाख रिकॉर्ड) सूची बनाए रखते हैं। हम थोड़ी देर के लिए इस पर रहे हैं और हमारे कैटलॉग को बढ़ने और सटीक रखने के लिए कई कार्यक्रमों और प्रक्रियाओं के साथ आए हैं; हालांकि, ऐसा लगता है कि x आइटमों को कैटलॉग बढ़ाना पसंद है, हमें टीम को y पर बढ़ाना होगा।

मुझे डेटा टीम की दक्षता बढ़ाने के कुछ तरीकों को समझने की ज़रूरत है और उम्मीद है कि मैं दूसरों के काम से सीख सकता हूं। किसी भी सुझाव की सराहना की जाती है, हालांकि सामग्री के लिंक होने पर मैं कुछ गंभीर समय पढ़ सकता हूं।

उत्तर

5

उपयोग आगंतुकों।

  1. यहां तक ​​कि अगर आप आइटम प्रति एक व्यक्ति है, तो गलत रिकॉर्ड हो जाएगा, और ग्राहकों यह मिल जाएगा।इसलिए, उन्हें आइटम को "अपरिवर्तनीय" के रूप में चिह्नित करने दें और एक छोटी टिप्पणी करें। लेकिन मत भूलना, वे आपके कर्मचारी नहीं हैं, उनसे बहुत ज्यादा मत पूछो; फेसबुक के "जैसे" बटन देखें, इसका उपयोग करना आसान है, और उपयोगकर्ता से बहुत अधिक ऊर्जा की आवश्यकता नहीं है। अच्छा प्रदर्शन/मूल्य। यदि फेसबुक में एक अनिवार्य क्षेत्र होगा, जो पूछता है "आपको यह क्यों पसंद है?", किसी को भी उस फ़ंक्शन का उपयोग नहीं करना चाहिए।

  2. विज़िटर आपको रास्ता तय करने में भी मदद करते हैं: वे आइटम पेज पर जाते हैं, और खोज फ़ंक्शन का उपयोग करते हैं (मेरा मतलब आंतरिक खोज इंजन और बाहरी दोनों Google की तरह है)। आप आगंतुकों की गतिविधि से जानकारी प्राप्त कर सकते हैं, कहें, सबसे अधिक देखी गई वस्तुओं का क्रम स्थापित करें, फिर आपको सूची के शीर्ष पर अधिक मानव शक्तियों को ध्यान में रखना चाहिए, और "लंबी पूंछ" के लिए कम होना चाहिए।

3

चूंकि यह कार्यान्वयन के बजाए टीम/कोड/डेटा के प्रबंधन के बारे में अधिक है और चूंकि आपने अमेज़ॅन का उल्लेख किया है, मुझे लगता है कि आपको यह उपयोगी लगेगा: http://highscalability.com/amazon-architecture

विशेष रूप से, वर्नर वोगल्स साक्षात्कार के लिंक पर क्लिक करें।

+0

धन्यवाद, मैं इसे अभी देख रहा हूं। –

3

बिल्ड यह सही पहली जगह में। सुनिश्चित करें कि आप जो डेटाबेस उपयोग कर रहे हैं, उसमें उपलब्ध प्रत्येक अखंडता जांच विधि का उपयोग करें, जो आप स्टोर कर रहे हैं उसके लिए उपयुक्त है। बेहतर है कि खराब डेटा से अपलोड विफल हो जाता है चुपचाप पेश किया जाता है।

फिर, यह पता लगाएं कि आप अपनी खुद की अखंडता जांच के संदर्भ में क्या करने जा रहे हैं। डीबी अखंडता जांच एक अच्छी शुरुआत है, लेकिन शायद ही कभी आपको चाहिए। यह आपको शुरुआत से, इस बारे में सोचने के लिए मजबूर करेगा कि आप किस प्रकार के डेटा के साथ काम कर रहे हैं, आपको इसे कैसे स्टोर करने की आवश्यकता है, और कैसे खराब या संदिग्ध डेटा को पहचानना और ध्वजांकित करना या अस्वीकार करना है।

मैं आपको कचरा डेटा से भरे पुराने सिस्टम (या सिर्फ दिन-प्रतिदिन काम करने) की कोशिश करने से देखे गए दर्द की मात्रा नहीं बता सकता। इसे सही तरीके से करना और इसे पूरी तरह से सामने रखना एक दर्द जैसा प्रतीत हो सकता है, और यह हो सकता है, लेकिन इनाम में एक प्रणाली है जिसमें अधिकांश भाग के साथ hums और किसी हस्तक्षेप के लिए बहुत कम जरूरत है।

एक लिंक के लिए, यदि कोई ऐसा व्यक्ति है जिसे स्केलेबिलिटी के बारे में सोचना और डिजाइन करना है, तो यह Google है। आपको यह निर्देशक मिल सकता है, इसे ध्यान में रखने के लिए कुछ अच्छी चीजें हैं: http://highscalability.com/google-architecture

1

अपने आपूर्तिकर्ताओं के साथ साझा दिनांक। फिर डेटा एक बार दर्ज किया जाता है।

यदि यह महत्वपूर्ण है तो इसे एक बार किया जाना चाहिए, अन्यथा नहीं।

+0

अगर हमने ऐसा किया है, तो हम व्यवसाय से बाहर होंगे। हम अपने डेटा के प्रबंधन के व्यवसाय में हैं (और इसे सभी को भेज रहे हैं ताकि यह केवल एक बार किया जा सके)। –

1

मैं डाटा खनन में भारी निवेश होगा। जिन उत्पादों को आप बेचने की कोशिश कर रहे हैं, उनके बारे में जितना संभव हो उतना फ़ीड प्राप्त करें। सीधे वाहनों के वाहनों के साथ-साथ मिशेल और हेनेस जैसे मोटर वाहन मरम्मत कंपनियों से फ़ीड प्राप्त करें।

एक बार जब आप भागों है कि आप की जरूरत है पता है, पार पार्ट नंबर पर interenet पर उपलब्ध हैं के साथ उन लोगों के पार्ट नंबर सहसंबंधी। इसके अलावा छवियों, समीक्षाओं और लेखों के साथ उन भाग संख्याओं को पार करें। एक पृष्ठ में यथासंभव अधिक से अधिक जानकारी एकत्र करने का प्रयास करें, और आखिरकार उस पृष्ठ को Google द्वारा अनुक्रमित करने की अनुमति दें।

अपने डेटा एकत्रीकरण के परिणामों के आधार पर प्रत्येक उत्पादों के लिए वजन की एक श्रृंखला आवंटित। आपके वजन के मूल्य के आधार पर या तो एक कर्मचारी को परिणाम पास करते हैं और उन्हें आपूर्तिकर्ताओं के साथ कीमत पर बातचीत करते हैं, एक पृष्ठ बनाते हैं और स्रोतों से लिंक करते हैं (माना जाता है कि आपको कमीशन प्राप्त होगा), या भाग को बेचना नहीं है ।

एक बार जब आप एक ही स्थान में पर्याप्त उत्पाद है, तो आप अन्य लोगों को जो अपनी वेबसाइट के लिए अतिरिक्त उत्पादों को जोड़ना चाहते हैं का समर्थन कर सकते हैं। अमेज़ॅन पर उपलब्ध संसाधनों की चौड़ाई तीसरे पक्ष के विक्रेताओं का समर्थन करने और उन विक्रेताओं को अमेज़ॅन की वेबसाइट पर सूचीबद्ध करने की अनुमति देने के कारण एक बड़े हिस्से में है।

विशेष रूप से ऑटो उद्योग में, मुझे लगता है कि उनके उच्च गुणवत्ता अनुक्रमण में एक महान मूल्य है जो दोनों एक विशेष घटक को बदलने के लिए की तलाश में लोगों द्वारा और साथ ही तार्किक ढूंढने योग्य के रूप में खोजे जाने योग्य गूगल है। आप खरीद में दिलचस्पी रखने वाले घटक के आधार पर आईपी भू-स्थान के माध्यम से स्थान विशिष्ट सेवाओं को बेचने/प्रदान करना भी चाह सकते हैं।

2

Master Data Management प्रस्तावित किया गया है कि एक और विकल्प है। Here माइक्रोसॉफ्ट का लेख "द व्हाट, व्हाई, एंड हाउ ऑफ मास्टर डेटा मैनेजमेंट" है। Data stewards को उद्यम के लिए डेटा की सटीकता बनाए रखने के अधिकार/जिम्मेदारी दी गई हैं।

स्केल करने की मुख्य क्षमता व्यापार के साथ प्रौद्योगिकी को संरेखित करने से आती है ताकि डेटा कर्मियों को अकेले लोग न हों जो जानकारी का प्रबंधन कर सकें। उपकरण और प्रक्रिया/प्रक्रियाएं व्यापार मालिकों को एंटरप्राइज़ डेटा प्रबंधित करने में सहायता करने में सक्षम बनाती हैं।

1

Google जैसे साइट द्वारा प्रबंधित अधिकांश डेटा उपयोगकर्ताओं से आता है। मैं अपना डेटा दर्ज करता हूं और इसकी सटीकता के लिए जिम्मेदार हूं। साइट्स का डेटा होता है, और इसे वेब से पकड़ा जाता है। खोज डेटा को खोज से पकड़ा जाता है। यह आपके प्रयासों से काफी अलग है। Google कर्मचारियों के साथ कुछ भी करने के लिए बहुत कम आवश्यकता है।

निर्माताओं फ़ीड के साथ कार्य करना अपने प्रयासों कम जनशक्ति गहन बना सकता है। व्यापार-बंद डेटा परिवर्तन सॉफ्टवेयर में निवेश कर रहा है। आप प्रत्येक क्रॉस-रेफरेंस के लिए स्रोत कैप्चर करना चाह सकते हैं। जब आप अपडेट प्राप्त करते हैं तो यह पुनः लोड हो जाएगा।

मेरे अनुभव से आप इस मुद्दे को पार संदर्भ दिशाहीन हो सकता है कि नहीं है। ए बी को प्रतिस्थापित कर सकता है, लेकिन बी ए को प्रतिस्थापित नहीं कर सकता है।

जब तक आपके पास मैन्युअल प्रविष्टि है, तो आपको त्रुटियां होंगी। इन त्रुटियों का पता लगाने के लिए आप अपने इंटरफ़ेस में जो भी कर सकते हैं, वह संभवतः प्रयास के लायक है। कर्मचारियों को इनपुट वॉल्यूम रैखिक रूप से स्केल करना चाहिए।

यह निर्धारित करने के लिए ध्यान चक्रों पर अनुसंधान की समीक्षा करें कि क्या आप इनपुट और सत्यापन प्रक्रियाओं की गुणवत्ता बढ़ाने के लिए कुछ कर सकते हैं या नहीं। सुरक्षा स्कैनिंग में हालिया शोध से संकेत मिलता है कि आप सत्यापन डेटा में आवधिक त्रुटियां उत्पन्न करना चाहते हैं।

जैसा कि अन्य ने ध्यान दिया है, उपयोगकर्ताओं को त्रुटियों को ध्वजांकित करना आसान बनाता है, यह एक अच्छा विचार है।

संबंधित मुद्दे

 संबंधित मुद्दे