2009-02-23 8 views
16

मैं कुछ पढ़ रहा हूं, और एक आंतरिक स्टोर से बचने के लिए आया है अगर मेरे आवेदन को SQL पर भेजे जाने से पहले डेटा मालिश करने की आवश्यकता नहीं है। डेटा मालिश क्या है?"डेटा मालिश" का क्या अर्थ है?

+26

कभी-कभी डेटा को काम और परिवार के साथ अधिभारित किया जाता है और आराम करने की आवश्यकता होती है। कभी-कभी डेटा 'खुश अंत' के लिए अतिरिक्त भुगतान करता है और वास्तव में अच्छी तरह से हल किया जाता है। = ओडी – Echostorm

उत्तर

18

मैनिपुलेट, प्रक्रिया, परिवर्तन, पुनर्मूल्यांकन। संक्षेप में, यदि आप डेटा को कच्चे में ले जा रहे हैं तो आंतरिक स्टोर का उपयोग करने की कोई आवश्यकता नहीं है, लेकिन यदि आप स्टोरेज से पहले कुछ भी कर रहे हैं, तो आप एक आंतरिक स्टोर चाहते हैं।

-Adam

+0

डेटा शुद्धता को निश्चित रूप से कभी नहीं माना जाना चाहिए। :) – EBGreen

+1

नहीं, किसी को भी किसी भी तरह के प्रोग्राम इनपुट पर भरोसा नहीं करना चाहिए। हालांकि, सरल जांच, मालिश को नहीं माना जा सकता है क्योंकि आप डेटा को छू नहीं रहे हैं - केवल उस पर ध्यान दे रहे हैं। –

+1

यह सच है। मालिश के साथ मेरा अनुभव लगभग हमेशा उस डेटा स्टोर में डेटा को साफ करना है जो किसी अन्य सिस्टम से दर्ज किया गया था जिस पर मेरा कोई नियंत्रण नहीं है। – EBGreen

3

साफ अप, सामान्य, छानने, ... बस एक रूप है कि बेहतर आपके उपयोग के लिए अनुकूल है में मूल इनपुट से किसी भी तरह डेटा को बदलने।

14

कभी-कभी डेटा को स्थानांतरित करने की पूरी प्रक्रिया को "निकालें, ट्रांसफॉर्म, लोड" का अर्थ "ईटीएल" कहा जाता है। डेटा को मालिश करना "ट्रांसफॉर्म" चरण है, लेकिन इसका अर्थ यह है कि प्रसिद्ध प्रारूपों के बीच परिवर्तनों की बजाय आपके सामने आने वाली समस्याओं को सुलझाने के लिए आपको क्या करना है (जैसे मालिश आपकी मांसपेशियों में होती है)।

सोचता है कि आप कर सकते हैं करने के लिए "मालिश" डेटा शामिल हैं: क्या स्रोत प्रणाली क्या लक्ष्य प्रणाली की उम्मीद करने के लिए उत्सर्जन करता है से, उदा

  • प्रारूपों बदलें दिनांक प्रारूप को डी/एम/वाई से एम/डी/वाई में बदलें।
  • गुम मूल्यों को डिफ़ॉल्ट के साथ प्रतिस्थापित करें, उदा। आपूर्ति "0" जब मात्रा नहीं दी जाती है।
  • लक्ष्य सिस्टम में आवश्यक रिकॉर्ड्स फ़िल्टर करें।
  • रिकॉर्ड्स की वैधता की जांच करें, और उन पंक्तियों को अनदेखा करें या रिपोर्ट करें जो आपको डालने का प्रयास करते समय त्रुटि का कारण बनेंगे।
  • भिन्नता को हटाने के लिए डेटा को सामान्य करें, जो समान होना चाहिए, उदा। ऊपरी मामले को ऊपरी मामले के साथ बदलें, "1" को "1" से बदलें।
1

और अंततः डेटा को फेंक कर डेटा को मालिश करने (या संख्याओं को समायोजित करके) को कम करने का कम स्वाभाविक अभ्यास होता है जब वे आपको इच्छित उत्तर नहीं देते हैं। दुर्भाग्यवश ध्रुव सांख्यिकीय विश्लेषण कर रहे हैं, अक्सर उन सिद्धांतों से छुटकारा पाने के लिए डेटा को मालिश करते हैं जो उनके सिद्धांत को अस्वीकार करते हैं। डेटा की सफाई के रूप में डेटा की सफाई के प्रति इस अभ्यास के परिणामस्वरूप अनुचित है। इसे कुछ ऐसा करने के लिए डेटा को साफ करना जो आपके सिस्टम में जा सकता है (02/30/2009 जैसे अर्थहीन तिथियों से छुटकारा पा रहा है क्योंकि किसी और ने उन्हें तारीखों के बजाय वर्चर में संग्रहीत किया है, पहले और अंतिम नाम अलग-अलग फ़ील्ड में अलग कर दिया है, सभी अपरकेस डेटा को ठीक कर रहा है , उन फ़ील्ड के लिए डिफ़ॉल्ट मान जोड़ना जिनके लिए डेटा की आवश्यकता होती है, जब आपूर्ति किए गए डेटा नहीं दिए जाते हैं, आदि) एक बात है - डेटा को मालिश करने से डेटा को उचित रूप से समायोजित करने का अभ्यास होता है।

संबंधित मुद्दे