2011-05-20 13 views
7

के बीच समानता मापना चित्रण उद्देश्यों के लिए, मान लें कि यह एक फ़ोरम सेवा है। मैं, प्रत्येक उपयोगकर्ताओं की पोस्ट के बीच में "समानता" की गणना करने के लिए इतना है कि परिणाम हो सकता है कुछ की तरह की जरूरत है:दस्तावेज़ सेट

among posts by user A, similarity 60% 
among posts by user B, similarity 20% 
... 

मैं multibyte तार के साथ काम कर रही है, इसलिए मुझे लगता है मैं खोज इंजन यहाँ के साथ अटक कर रहा हूँ। हम पहले से ही सोलर का उपयोग करते हैं, पहले से ही इसे अधिक लागू किया गया है, लेकिन मुझे पूरा यकीन नहीं है कि क्वेरी कैसे बनाएं। किसी भी मदद की सराहना की!

+1

पर देखो के रूप में और अधिक परिष्कृत लोगों तुम तुम क्या "समान" पर विचार करें और आप कैसे यह मॉडल बनाना चाहते हैं परिभाषित करने की जरूरत है। Levenshtein दूरी? मार्कोव चेन? –

+0

वास्तव में मुझे वास्तव में परवाह नहीं है, इस अर्थ में कि मैं सोलर को और अधिक पसंद करने के लिए तैयार हूं, यह सुविधा मेरे लिए तय करती है। लेकिन मानक के बजाय "मुझे इस तरह के अधिक लेख प्राप्त करें, उस समानता स्कोरिंग चीज के आधार पर", जो मैं यहां करने की कोशिश कर रहा हूं वह है "मुझे इन लेखों के बीच समानता स्कोर प्राप्त करें"। – jodeci

उत्तर

0

दो तरह से अजीब सवाल: 1. आप SOLR से निपटने के लिए क्यों करते हैं? 2. समानता की तरह लक्ष्य समस्या पर निर्भर करता है। आपका प्रश्न मेरे लिए बहुत सामान्य लगता है। अर्थपूर्ण समानता के क्षेत्र में अनुसंधान चल रहा है। संपादन-दूरी एल्गोरिदम है, जो शायद नहीं है जो आप चाहते हैं।

तो, आपको अधिक सटीक प्रश्न पूछें और आपको बेहतर उत्तर मिलेंगे।

0

समानता के लिए कई उपाय कर रहे हैं, एक सरल और प्रभावी एक कोसाइन समानता है। ऐसे स्मिथ-वाटरमैन आदि,

http://sourceforge.net/projects/simmetrics/

संबंधित मुद्दे