मेरे पास 50 000 + कंपनियों का डेटाबेस है जो लगातार अद्यतन (200+ प्रति माह) है।एक विशाल सूची में इसी प्रकार के नाम
दोहराया सामग्री के साथ एक बहुत बड़ा मुद्दा है क्योंकि नाम हमेशा सख्त/सही नहीं हैं:
"सुपर 1 स्टोर"
"सुपर एक स्टोर"
"सुपर 1 स्टोर"
एक और उदाहरण .. जो शायद अलग दृष्टिकोण की जरूरत है: संपादित
"एमी पिज्जा" < ---> "एमी द्वारा कार्बनिक पिज्जा और कंपनी"
हमें समान नामों के लिए डेटा स्कैन करने के लिए टूल की आवश्यकता है। मेरे पास Levenshtein Distance और LCS के साथ कुछ अनुभव है लेकिन 2 स्ट्रिंग समान हैं तो तुलना करने के लिए वे अच्छा काम करते हैं ...
यहां मुझे 50 000 नाम स्कैन करना होगा प्रत्येक के साथ-साथ प्रत्येक की गणना कर सकते हैं ... समग्र समानता रेटिंग। ..
मुझे सलाह है कि इस समस्या पर हमला कैसे करें अपेक्षित परिणाम बहुत समान नामों के 10-20 समूहों के साथ एक सूची है, और अधिक परिणामों के लिए संवेदनशीलता को और समायोजित कर सकते हैं।
दिलचस्प! क्या आपने 'similar_text()' [function] (http://php.net/manual/en/function.similar-text.php) की कोशिश की है? – Lan
आसान उत्तर नक्शा/कम करने के बाद पहले सामान्यीकृत होता है, लेकिन मुझे लगता है कि आप कुछ और जटिल खोज रहे हैं। – mcuadros
मैंने कभी इसका इस्तेमाल नहीं किया है, लेकिन कैसे SOUNDEX के बारे में? –