आपको जो क्लस्टरिंग एल्गोरिदम चाहिए, जो स्वचालित रूप से समान उपयोगकर्ताओं को एक साथ समूहित करेगा। आप जिस पहली कठिनाई का सामना कर रहे हैं वह यह है कि अधिकांश क्लस्टरिंग एल्गोरिदम उन वस्तुओं की अपेक्षा करते हैं जिन्हें वे क्लस्टर को यूक्लिडियन स्पेस में इंगित करते हैं। आपके मामले में, आपके पास अंक के निर्देशांक नहीं हैं। इसके बजाय, आप उनमें से जोड़े के बीच "समानता" फ़ंक्शन के मान की गणना कर सकते हैं।
spectral clustering का उपयोग करने की एक अच्छी संभावना है, जो आपके पास सटीक रूप से आवश्यक है: एक समानता मैट्रिक्स। नकारात्मकता यह है कि आपको अभी भी प्रत्येक जोड़ी के लिए अपने संगतता फ़ंक्शन की गणना करने की आवश्यकता है, i। ई। एल्गोरिदम ओ (एन^2) है।
यदि आपको बिल्कुल ओ (एन^2) से अधिक एल्गोरिदम की आवश्यकता है, तो आप dissimilarity spaces नामक एक दृष्टिकोण को आजमा सकते हैं। विचार बहुत सरल है। आप अपनी संगतता फ़ंक्शन (ई। जी। अपने पारस्परिक रूप से ले कर) को असमानता या दूरी के माप में बदलने के लिए उलटा करते हैं। फिर आप प्रोटोटाइप वस्तुओं के एक सेट में प्रत्येक आइटम (उपयोगकर्ता, अपने मामले में) की तुलना करते हैं, और परिणामी दूरी को अंतरिक्ष में निर्देशांक के रूप में देखते हैं। उदाहरण के लिए, यदि आपके पास 100 प्रोटोटाइप हैं, तो प्रत्येक उपयोगकर्ता को 100 तत्वों के वेक्टर द्वारा दर्शाया जाएगा, i। ई। 100-आयामी अंतरिक्ष में एक बिंदु से।फिर आप K-means जैसे किसी मानक क्लस्टरिंग एल्गोरिदम का उपयोग कर सकते हैं।
सवाल यह है कि आप प्रोटोटाइप कैसे चुनते हैं, और आपको कितने की आवश्यकता है। विभिन्न ह्युरिस्टिक्स की कोशिश की गई है, हालांकि, यहां एक dissertation है जो तर्क देता है कि प्रोटोटाइप को यादृच्छिक रूप से चुनना पर्याप्त हो सकता है। यह उन प्रयोगों को दिखाता है जिनमें 100 या 200 यादृच्छिक रूप से चयनित प्रोटोटाइप का उपयोग अच्छे परिणाम उत्पन्न करते हैं। आपके मामले में यदि आपके पास 1000 उपयोगकर्ता हैं, और आप उनमें से 200 को प्रोटोटाइप के रूप में चुनते हैं, तो आपको 200,000 बार अपने संगतता फ़ंक्शन का मूल्यांकन करना होगा, जो कि प्रत्येक जोड़ी की तुलना में 2.5 के कारक में सुधार है। असली लाभ, हालांकि, यह है कि 1,000,000 उपयोगकर्ताओं के लिए 200 प्रोटोटाइप अभी भी पर्याप्त होंगे, और आपको 500,000,000,000 के बजाय 2500 के कारक में सुधार के बजाय 200,000,000 तुलना करने की आवश्यकता होगी। आपको क्या मिलता है ओ (एन) एल्गोरिदम, जो है संभावित रूप से बड़े स्थिर कारक के बावजूद ओ (एन^2) से बेहतर।
सिर्फ पड़ोसी (या अमेरिका के लिए पड़ोसी) टैग पर एक टाइपो तय किया गया है ... – VonC
यदि आप कुछ शानदार के साथ आते हैं, तो आप नेटफ्लिक्स पुरस्कार - http://netflixprize.com/ जीत सकते हैं। –