के बीच समानता मापना चित्रण उद्देश्यों के लिए, मान लें कि यह एक फ़ोरम सेवा है। मैं, प्रत्येक उपयोगकर्ताओं की पोस्ट के बीच में "समानता" की गणना करने के लिए इतना है कि परिणाम हो सकता है कुछ की तरह की जरूरत है:दस्तावेज़ सेट
among posts by user A, similarity 60%
among posts by user B, similarity 20%
...
मैं multibyte तार के साथ काम कर रही है, इसलिए मुझे लगता है मैं खोज इंजन यहाँ के साथ अटक कर रहा हूँ। हम पहले से ही सोलर का उपयोग करते हैं, पहले से ही इसे अधिक लागू किया गया है, लेकिन मुझे पूरा यकीन नहीं है कि क्वेरी कैसे बनाएं। किसी भी मदद की सराहना की!
पर देखो के रूप में और अधिक परिष्कृत लोगों तुम तुम क्या "समान" पर विचार करें और आप कैसे यह मॉडल बनाना चाहते हैं परिभाषित करने की जरूरत है। Levenshtein दूरी? मार्कोव चेन? –
वास्तव में मुझे वास्तव में परवाह नहीं है, इस अर्थ में कि मैं सोलर को और अधिक पसंद करने के लिए तैयार हूं, यह सुविधा मेरे लिए तय करती है। लेकिन मानक के बजाय "मुझे इस तरह के अधिक लेख प्राप्त करें, उस समानता स्कोरिंग चीज के आधार पर", जो मैं यहां करने की कोशिश कर रहा हूं वह है "मुझे इन लेखों के बीच समानता स्कोर प्राप्त करें"। – jodeci