मैं एक बड़े शहर डेटाबेस है जो कई विभिन्न स्रोतों से संकलित किया गया है। मैं शहर के नाम के आधार पर आसानी से डुप्लिकेट स्पॉट करने का एक तरीका ढूंढने की कोशिश कर रहा हूं। बेवकूफ जवाब levenshtein दूरी का उपयोग करना होगा। । हालांकि, शहर के साथ समस्या यह है कि वे अक्सर उपसर्गों और प्रत्यय वे किस देश मेंवैकल्पिक/प्रत्यय
उदाहरण के लिए कर रहे हैं के लिए आम हैं कि है:
Boulleville बनाम Boscherville
ये लगभग निश्चित रूप से अलग-अलग शहरों में हैं। हालांकि, क्योंकि वे दोनों "विले" के साथ समाप्त होते हैं (और दोनों "बो" से शुरू होते हैं) उनके पास एक छोटी सी लेवेस्टीन दूरी होती है।
* मैं एक स्ट्रिंग दूरी एल्गोरिथ्म है कि खाते में शब्द शब्द के सिरों पर पत्र की तुलना में अधिक के बीच में पत्र भार से उपसर्गों और प्रत्यय के प्रभाव को कम करने के चरित्र का स्थान ले लेता है के लिए देख रहा हूँ। *
मैं शायद कुछ अपने आप को लिख सकता है, लेकिन मैं यह विश्वास करना मुश्किल है कि कोई भी अभी तक एक उपयुक्त एल्गोरिथ्म प्रकाशित किया है पाते हैं।
मैं इसे लगभग http://stackoverflow.com/questions/10425238/modifying-levenshtein-distance-for-positional-bias के डुप्लिकेट के रूप में बंद कर दूंगा, लेकिन उसमें काम करने के लिए एक कठिन जवाब है ... – Wrikken