मैं एक प्रश्नोत्तरी प्रणाली बना रहा हूं, और जब क्विज़मेकर प्रश्न बैंक में प्रश्न डालते हैं, तो मैं डुप्लिकेट/बहुत ही समान प्रश्नों के लिए डीबी की जांच कर रहा हूं।पूर्ण-पाठ खोज प्रासंगिकता में मापा जाता है?
MySQL के MATCH() ... AGAINST() का परीक्षण, मुझे प्राप्त होने वाली उच्चतम प्रासंगिकता 30+ है, जब मैं 100% समान स्ट्रिंग के खिलाफ परीक्षण करता हूं।
तो प्रासंगिकता वास्तव में क्या है? manual उद्धरण:
प्रासंगिकता मान गैर-नकारात्मक फ़्लोटिंग-पॉइंट संख्याएं हैं। शून्य प्रासंगिकता का कोई समानता नहीं है। पंक्ति में शब्दों की संख्या, उस पंक्ति में अद्वितीय शब्दों की संख्या, संग्रह में शब्दों की कुल संख्या, और दस्तावेजों की संख्या (पंक्तियों) की संख्या के आधार पर प्रासंगिकता की गणना की जाती है जिसमें एक विशेष शब्द होता है।
मेरी समस्या यह है कि स्ट्रिंग एक डुप्लिकेट होने पर प्रासंगिकता मूल्य का परीक्षण कैसे करें। यदि यह 100% डुप्लिकेट है, तो इसे प्रश्न बैंक में घुसपैठ करने से रोकें। लेकिन अगर यह केवल इतना ही समान है, तो क्विज़मेकर को सत्यापित करने, डालने या नहीं करने के लिए संकेत दें। तो मैं यह कैसे करूँ? 30% समान स्ट्रिंग के लिए 30+ प्रतिशत नहीं है, इसलिए मैं स्टंप हूं।
अग्रिम धन्यवाद।
मैं जब भी संभव हो MySQL खोज इंजन का उपयोग करने के लिए पसंद करते हैं। अगर मैं खुद की तुलना करना चाहता था, तो मुझे बहुत सारी तैयारी और जांच करने की ज़रूरत है। सभी सफेद जगहों और विशेष पात्रों को हटाएं, सभी को अपरकेस में परिवर्तित करें, और क्या नहीं। यह मेरा आखिरी उपाय है। – syaz