मैं इस सवाल को एक प्रणाली को डिजाइन करने के तरीके पर व्यावहारिक सलाह की तलाश में हूं।एक विशाल डेटा सेट की सटीकता एकत्रित करने, बनाए रखने और सुनिश्चित करने के लिए सर्वोत्तम प्रथाएं क्या हैं?
amazon.com और पैंडोरा जैसी साइटें अपने मुख्य व्यवसाय को चलाने के लिए विशाल डेटा सेट रखती हैं और बनाए रखती हैं। उदाहरण के लिए, अमेज़ॅन (और हर दूसरी प्रमुख ई-कॉमर्स साइट) में बिक्री के लिए लाखों उत्पाद हैं, उन उत्पादों की छवियां, मूल्य निर्धारण, विनिर्देश इत्यादि आदि
तृतीय पक्ष विक्रेताओं से आने वाले डेटा को अनदेखा करना और उपयोगकर्ता द्वारा उत्पन्न सामग्री को "सामान" कहीं से आना पड़ा और किसी के द्वारा बनाए रखा जाता है। यह भी अविश्वसनीय रूप से विस्तृत और सटीक है। कैसे? वह यह कैसे करते हैं? क्या डेटा-एंट्री क्लर्क की सिर्फ एक सेना है या क्या उन्होंने गंदे काम को संभालने के लिए सिस्टम तैयार किए हैं?
मेरी कंपनी एक ऐसी ही स्थिति में है। हम मोटर वाहन भागों और कारों के फिट होने के लिए एक विशाल (10 लाख रिकॉर्ड) सूची बनाए रखते हैं। हम थोड़ी देर के लिए इस पर रहे हैं और हमारे कैटलॉग को बढ़ने और सटीक रखने के लिए कई कार्यक्रमों और प्रक्रियाओं के साथ आए हैं; हालांकि, ऐसा लगता है कि x आइटमों को कैटलॉग बढ़ाना पसंद है, हमें टीम को y पर बढ़ाना होगा।
मुझे डेटा टीम की दक्षता बढ़ाने के कुछ तरीकों को समझने की ज़रूरत है और उम्मीद है कि मैं दूसरों के काम से सीख सकता हूं। किसी भी सुझाव की सराहना की जाती है, हालांकि सामग्री के लिंक होने पर मैं कुछ गंभीर समय पढ़ सकता हूं।
धन्यवाद, मैं इसे अभी देख रहा हूं। –