"anderstornvig" उल्लेख Levenshtein/संपादन दूरी है, जो एक बहुत अच्छा विचार है, लेकिन काफी उचित है क्योंकि कुछ क्रमपरिवर्तन अन्य क्रमपरिवर्तन की तुलना में अधिक महत्वपूर्ण हैं नहीं है। समस्या यह प्रतीत होती है कि हम बहुत से डोमेन-विशिष्ट ज्ञान का उपयोग कर रहे हैं जब हम यह निर्धारित करते हैं कि कौन से अंतर "महत्वपूर्ण" हैं और जो "महत्वहीन" हैं। उदाहरण के लिए, हम जानते हैं कि "हाफ-ब्लड प्रिंस" में हाइफ़न बहुत महत्वपूर्ण है लेकिन "फ़ायरफ़ॉक्स 3" में संख्या बहुत महत्वपूर्ण है।
इस कारण से, आप Levenshtein की तरह एक साधारण मीट्रिक अनुरूपण सोच सकते हैं। पैरामीटर जोड़ें जो आपको अनुकूलित करने देता है कि किस तरह के मतभेद महत्वपूर्ण हैं और किस प्रकार महत्वहीन हैं।
विशेष रूप से, लेवेनशेटिन एक स्ट्रिंग को दूसरे में बदलने के लिए "संपादन" (यानी, सम्मिलन, हटाना, और प्रतिस्थापन) की संख्या की गणना करता है। प्रभावी रूप से, यह वजन प्रत्येक को संपादित करता है। आप एक कार्यान्वयन लिख सकते हैं जो कुछ संपादनों को अलग-अलग भार देता है। उदाहरण के लिए, "-" को "" में बदलना बहुत कम वजन होना चाहिए (महत्वहीनता दर्शाता है)। "3" को "2" में बदलना, जब संख्या अकेली है, तो बहुत अधिक वजन होना चाहिए (उच्च महत्व दर्शाता है)।
गणना parameterizing करके, आप लगातार अपने एल्गोरिथ्म में सुधार के लिए एक अवसर पैदा करते हैं। प्रारंभिक कॉन्फ़िगरेशन बनाएं और इसे कुछ परीक्षण डेटा पर चलाएं। उन स्थानों को खोजें जहां मीट्रिक कमजोर है - जहां यह दो शब्दों को विलय करता है, जो आपको लगता है कि अलग होना चाहिए, उदाहरण के लिए - और जब तक आप संतुष्ट न हो जाएं पैरामीटर को संशोधित करें।
इस तरह, आप अपने एल्गोरिथ्म अपने डोमेन विशिष्ट ज्ञान का उपयोग कर प्रशिक्षित कर सकते हैं।
सभी विशेष पात्रों को हटाने के रूप में सरल + खोज शब्द में रिक्त स्थान और उन्हें लिंक करें! "खोज शब्द" = "खोज शब्द" = "खोज + शब्द" कुछ भी "खोजकर्ता" की खोज में परिणाम देगा मुझे पता है, बहुत स्मार्ट :) –
नहीं, यह इतना आसान नहीं है। "संगीत आप हैं" इस विषय के लिए एकमात्र वर्तनी है। लेकिन "हाफ ब्लड प्रिंस" में दो अलग-अलग वर्तनी हैं ... – caw
यदि आप ब्रोकन लिंक जैसे सभी विशेष पात्रों को हटाते हैं तो कहते हैं कि वास्तव में हाफ ब्लड प्रिंस की दो वर्तनी नहीं हैं। विशेष पात्रों और रिक्त स्थानों को हटा दिए जाने के बाद दोनों "आधाब्लूडप्रिंस" –