मुझे सुखद आश्चर्य हुआ कि किसी ने पूछा है कि खोज इंजन के लिए एक अत्याधुनिक वर्तनी सुझाव प्रणाली कैसे बनाएं। मैं इस विषय पर एक खोज इंजन कंपनी के लिए एक वर्ष से अधिक समय से काम कर रहा हूं और मैं विषय पर सार्वजनिक डोमेन पर जानकारी इंगित कर सकता हूं।
जैसा कि पिछले पोस्ट में बताया गया था, Google (और माइक्रोसॉफ्ट और याहू!) किसी पूर्वनिर्धारित शब्दकोश का उपयोग नहीं करते हैं और न ही वे भाषाविदों की भीड़ को नियोजित करते हैं जो प्रश्नों की संभावित गलत वर्तनी पर विचार करते हैं। समस्या के पैमाने के कारण यह असंभव होगा, लेकिन यह भी स्पष्ट नहीं है कि लोग वास्तव में सही ढंग से पहचान सकते हैं कि कब और यदि कोई प्रश्न गलत वर्तनी है।
इसके बजाय एक सरल और प्रभावी सिद्धांत है जो सभी यूरोपीय भाषाओं के लिए भी मान्य है। अपने खोज लॉग पर सभी अनूठे प्रश्न प्राप्त करें, प्रश्नों के सभी जोड़ों के बीच संपादन दूरी की गणना करें, यह मानते हुए कि संदर्भ क्वेरी वह है जो उच्चतम गिनती है।
यह सरल एल्गोरिदम कई प्रकार के प्रश्नों के लिए बहुत अच्छा काम करेगा। यदि आप इसे अगले स्तर पर ले जाना चाहते हैं तो मेरा सुझाव है कि आप उस विषय पर माइक्रोसॉफ्ट रिसर्च द्वारा पेपर पढ़ें। आप इसे here
पेपर का एक महान परिचय है लेकिन इसके बाद आपको छुपे हुए मार्कोव मॉडल जैसी अवधारणाओं के साथ जानकार होने की आवश्यकता होगी।
स्रोत
2009-05-05 07:06:38
@pek: मैंने थोड़ी देर पहले एक ही विचार किया था ... क्या आपने एक HTML स्क्रबर का उपयोग करने और सुधारों के स्रोत के रूप में Google का उपयोग करने का विचार किया है? –
Google एपीआई के लिंक के लिए http://stackoverflow.com/questions/3763640/where-can-i-learn-more-about-the-google-search-did-you-mean-algorithm – John