तो वहाँ कि कैसे समान एक प्रविष्टि एक और करने के लिए है के लिए एक प्रतिशत दे सकते हैं एल्गोरिथ्म किसी प्रकार का है?
ध्वनि और संपादित दूरी (जैसे पिछली पोस्ट में सुझाए गए अनुसार) के रूप में एल्गोरिदम आपकी कुछ समस्याओं को हल कर सकते हैं। हालांकि, अगर आप अपने डेटा की सफाई के बारे में गंभीर हैं, तो यह पर्याप्त नहीं होगा। जैसा कि अन्य ने कहा है कि "बिल" "विलियम" जैसी कुछ भी नहीं सुना है।
मुझे मिला सबसे अच्छा समाधान है कि नाम को रूट नाम में कम करने के लिए एक कमी एल्गोरिदम और तालिका का उपयोग करना है।
अपने नियमित रूप से पता तालिका करने के लिए
, जोड़ने के नाम, उदाहरण के लिए: व्यक्ति (प्रथम, RootFirstName, उपनाम, Rootsurname ....) के रूट-संस्करणों
अब, एक मानचित्रण तालिका बनाने के। FirstNameMappings (प्राथमिक कुंजी प्रथम, Rootname)
करके अपने मानचित्रण तालिका भरें: सम्मिलित FirstNameMappings में ध्यान न दें (चयन प्रथम, "अनिर्धारित" व्यक्ति से)
यह आपके व्यक्ति तालिका में सभी firstnames है कि आप जोड़ देगा "UNDEFINED" के रूटनाम के साथ
अब, दुख की बात है कि आपको सभी अद्वितीय पहले नामों से गुजरना होगा और उन्हें रूटनाम में मानचित्र करना होगा। उदाहरण के लिए "बिल", "बिलल" और "विल" का अनुवाद "विलियम" में किया जाना चाहिए, यह बहुत समय ले रहा है, लेकिन यदि डेटा गुणवत्ता वास्तव में आपके लिए महत्वपूर्ण है तो मुझे लगता है कि यह सर्वोत्तम तरीकों में से एक है।
अब अपनी व्यक्तिगत तालिका में "रूटफर्स्टनाम" फ़ील्ड को अपडेट करने के लिए नव निर्मित मानचित्रण तालिका का उपयोग करें। उपनाम और पते के लिए दोहराएं। एक बार ऐसा करने के बाद आपको वर्तनी त्रुटियों से पीड़ित बिना डुप्लीकेट का पता लगाने में सक्षम होना चाहिए।
यह बिल = विलियम का पता कैसे लगाएगा? उनकी समस्या डुप्लिकेट है, सटीक डुप्लिकेट में वर्तनी की गलतियों को नहीं। –