आप "क्या आपका मतलब" लागू करते हैं?

81

असल में Google जो करता है वह बहुत ही गैर-तुच्छ और पहले काउंटर-सहज ज्ञान युक्त होता है। वे किसी शब्दकोश के खिलाफ जांच की तरह कुछ नहीं करते हैं, बल्कि वे "समान" प्रश्नों की पहचान करने के लिए आंकड़ों का उपयोग करते हैं जो आपकी क्वेरी से अधिक परिणाम लौटाते हैं, सटीक एल्गोरिदम निश्चित रूप से ज्ञात नहीं है।

यहां हल करने के लिए विभिन्न उप-समस्याएं हैं, सभी प्राकृतिक भाषा प्रसंस्करण आंकड़ों के लिए मौलिक आधार के रूप में वहां एक पुस्तक होना चाहिए: Foundation of Statistical Natural Language Processing।

शब्द/क्वेरी समानता की समस्या को हल करने के लिए ठोस रूप से मेरे पास Edit Distance का उपयोग करने के साथ अच्छे परिणाम हुए हैं, स्ट्रिंग समानता का गणितीय माप जो आश्चर्यजनक रूप से अच्छी तरह से काम करता है। मैं लेवेनशेटिन का उपयोग करता था लेकिन दूसरों को देखने लायक हो सकता है।

साउंडएक्स - मेरे अनुभव में - बकवास है।

असल में कुशलतापूर्वक गलत वर्तनी वाले शब्दों के बड़े शब्दकोश को संग्रहीत और खोजना और उप-दूसरे पुनर्प्राप्ति को फिर से गैर-तुच्छ है, तो आपकी सर्वश्रेष्ठ शर्त मौजूदा पूर्ण पाठ अनुक्रमण और पुनर्प्राप्ति इंजन (यानी आपके डेटाबेस का एक नहीं) का उपयोग करना है। जो Lucene वर्तमान में सबसे अच्छे और संयोग से कई प्लेटफ़ॉर्म पर पोर्ट किया गया है।

आप "क्या आपका मतलब" लागू करते हैं?

उत्तर

संबंधित मुद्दे