डेडअपिंग शायद ही कभी सरल है। ऐसा इसलिए है क्योंकि रिकॉर्ड को तोड़ने के लिए अक्सर कुछ अलग-अलग मान होते हैं। इसलिए चुनें कि कौन सा रिकॉर्ड रखना मुश्किल हो सकता है। इसके अलावा, डुप्लिकेट अक्सर लोग रिकॉर्ड करते हैं और यह पहचानना मुश्किल है कि क्या दो जॉन स्मिथ दो लोग हैं या एक व्यक्ति जो डुप्लिकेट किया गया है। इसलिए अपने समय के बारे में बहुत कुछ (50% या अधिक परियोजना) खर्च करें जो परिभाषित करता है कि क्या एक डुप्लिकेट और अंतर और बाल रिकॉर्ड को संभालने का तरीका है।
आप कैसे जानते हैं कि सही मूल्य कौन सा है? आगे dedupping की आवश्यकता है कि आप सभी बच्चे के रिकॉर्ड संभाल नहीं है किसी भी अनाथ नहीं। क्या होता है जब आप पाते हैं कि बच्चे के रिकॉर्ड पर आईडी को बदलकर आप अचानक एक अद्वितीय इंडेक्स या बाधाओं का उल्लंघन कर रहे हैं - यह अंततः होगा और आपकी प्रक्रिया को इसे संभालने की आवश्यकता है। यदि आपने अपनी सभी बाधाओं को लागू करने के लिए मूर्खतापूर्वक चुना है, तो आवेदन को पूरी तरह से पूरा करें, आपको यह भी पता नहीं हो सकता कि बाधाओं का उल्लंघन किया जाता है। जब आपके पास कटौती के लिए 10,000 रिकॉर्ड हैं, तो आप एक समय में एक को समर्पित करने के लिए आवेदन के माध्यम से नहीं जा रहे हैं। यदि बाधा डेटाबेस में नहीं है, तो जब आप dedup करते हैं तो डेटा अखंडता को बनाए रखने में बहुत भाग्य।
एक और जटिलता यह है कि डुप्लिकेट हमेशा नाम या पते पर बिल्कुल मेल नहीं खाते हैं। उदाहरण के लिए जोआन मार्टिन नामक एक विक्रय प्रतिनिधि बिक्री प्रतिनिधि नाम जोन मार्टिन-जोन्स का एक डुप्लिकेट हो सकता है, खासकर यदि उनके पास एक ही पता और ईमेल है। या आप नाम में जॉन या जॉनी हो सकता है। या एक ही सड़क के पते को छोड़कर एक ही सड़क का पता लगाया गया एसटी। और एक स्ट्रीट बाहर वर्तनी। एसक्यूएल सर्वर में आप एसएसआईएस और फ़ज़ी ग्रुपिंग का उपयोग निकटतम मैचों की पहचान करने के लिए भी कर सकते हैं। ये अक्सर सबसे आम डुप्लिकेट हैं क्योंकि तथ्य यह नहीं था कि सटीक मिलान नहीं थे, इसलिए उन्हें पहली जगह में डुप्लिकेट के रूप में रखा गया।
कुछ प्रकार के dedupping के लिए, आपको एक उपयोगकर्ता इंटरफ़ेस की आवश्यकता हो सकती है, ताकि dedupping करने वाला व्यक्ति किसी विशेष फ़ील्ड के लिए उपयोग करने के लिए दो मूल्यों का चयन कर सके। यह विशेष रूप से सच है यदि वह व्यक्ति जो कटौती की जा रही है वह दो या दो से अधिक भूमिकाओं में है। यह हो सकता है कि किसी विशेष भूमिका के लिए डेटा आमतौर पर किसी अन्य भूमिका के डेटा से बेहतर होता है। या यह हो सकता है कि केवल उपयोगकर्ता ही यह सुनिश्चित कर सकें कि सही मूल्य क्या है या उन्हें यह पता लगाने के लिए लोगों से संपर्क करने की आवश्यकता हो सकती है कि वे वास्तव में डुप्लिकेट हैं या केवल एक ही नाम वाले दो लोग हैं।
आप (पी को छोड़कर) * समान * डुप्लिकेट गिर मतलब, या गिर * पर्याप्त समान * डुप्लिकेट है? पूर्व को काफी सरलता से किया जा सकता है, उत्तरार्द्ध अनिश्चितता और दर्द की एक संभावित दुनिया है। –
@j_random_hacker - मेरा मतलब पूरी तरह से समान था। पोस्ट के शब्द को देखें - "मैं डुप्लीकेट से छुटकारा पाने का जिक्र कर रहा हूं ... पंक्तियां जो * सबकुछ * पीके फ़ील्ड * में डुप्लिकेट हैं।" – froadie
क्षमा करें, मैंने सावधानीपूर्वक पर्याप्त नहीं पढ़ा ... –