मुझे स्वचालित रूप से उत्पाद नामों (कैमरे, लैपटॉप, टीवी-एस आदि) से मेल खाते हैं जो विभिन्न स्रोतों से डेटाबेस में एक कैनोलिक नाम में आते हैं।उत्पाद नामों का फ़ज़ी मिलान
उदाहरण के लिए "कैनन PowerShot a20IS", और "डिजिटल कैमरा कैनन पी एस A20IS" चाहिए सभी मैच "कैनन PowerShot A20 है" "नई PowerShot A20 कैनन से है"। मैंने कुछ अतिरिक्त ह्यूरिस्टिक्स (स्पष्ट सामान्य शब्दों को हटाने, संख्या परिवर्तनों में उच्च लागत को आवंटित करने आदि) के साथ लेवेनशेटिन दूरी के साथ काम किया है, जो कुछ हद तक काम करता है, लेकिन दुर्भाग्य से पर्याप्त नहीं है।
मुख्य समस्या यह है कि प्रासंगिक कीवर्ड में एकल अक्षर परिवर्तन भी एक बड़ा अंतर डाल सकता है, लेकिन यह पता लगाना आसान नहीं है कि प्रासंगिक कीवर्ड कौन से हैं। उदाहरण के तीन उत्पाद नामों के लिए पर विचार करें:
Lenovo T400
लेनोवो R400
नई Lenovo T400, कोर 2 डुओ
पहले दो किसी भी मानक से हास्यास्पद समान तार कर रहे हैं (ठीक है, soundex मदद कर सकता है इस मामले में टी और आर को विचलित करने के लिए, लेकिन नाम 400T और 400R भी हो सकते हैं), पहला और तीसरा एक दूसरे से तारों के रूप में काफी दूर है, लेकिन एक ही उत्पाद है।
जाहिर है, मिलान करने वाला एल्गोरिदम 100% सटीक नहीं हो सकता है, मेरा लक्ष्य स्वचालित रूप से उच्च विश्वास वाले 80% नामों से मिलान करना है।
कोई भी विचार या संदर्भ बहुत सराहना कर रहा है
क्या यह दृष्टिकोण आपके लिए काम करता है या आप किसी अन्य दिशा में जाते हैं? –