मेरे पास एक बड़ा डेटा सेट है जिसे मैं क्लस्टर करना चाहता हूं। मेरा परीक्षण रन सेट आकार 2,500 ऑब्जेक्ट्स है; जब मैं इसे 'असली सौदा' पर चलाता हूं तो मुझे कम से कम 20k ऑब्जेक्ट्स को संभालने की आवश्यकता होगी।कोसाइन समानता के साथ क्लस्टरिंग
इन वस्तुओं में उनके बीच कोसाइन समानता है। यह कोसाइन समानता गणितीय दूरी मीट्रिक होने की आवश्यकताओं को पूरा नहीं करती है; यह त्रिभुज असमानता को पूरा नहीं करता है।
मैं उन्हें कुछ "प्राकृतिक" तरीके से क्लस्टर करना चाहता हूं जो समान वस्तुओं को एक साथ रखे बिना क्लस्टर की संख्या को निर्दिष्ट करने की आवश्यकता के बिना रखता है।
क्या किसी को एल्गोरिदम के बारे में पता है जो ऐसा करेगा? असल में, मैं बस किसी भी एल्गोरिदम की तलाश में हूं जिसके लिए ए की आवश्यकता नहीं है) एक दूरी मीट्रिक और बी) क्लस्टर की एक पूर्व निर्दिष्ट संख्या।
बहुत धन्यवाद!
यह सवाल यहां से पहले कहा गया है: Clustering from the cosine similarity values (लेकिन यह समाधान केवल प्रदान करता है कश्मीर का मतलब है क्लस्टरिंग), और यहाँ: Effective clustering of a similarity matrix (लेकिन यह समाधान नहीं बल्कि अस्पष्ट था)
http://en.wikipedia.org/wiki/Cosine_similarity से: "हालांकि इस कोणीय दूरी के लिए" कोसाइन समानता "शब्द का उपयोग किया गया है, शब्द का अजीब रूप से उपयोग किया जाता है क्योंकि कोण के कोसाइन का उपयोग केवल एक के रूप में किया जाता है कोण की गणना के लिए सुविधाजनक तंत्र और अर्थ का कोई हिस्सा नहीं है।कोणीय समानता गुणांक का लाभ यह है कि, जब एक अंतर गुणांक के रूप में उपयोग किया जाता है (इसे 1 से घटाना) * परिणामी कार्य एक उचित दूरी मीट्रिक * है, जो पहले अर्थ के लिए मामला नहीं है। " – phs
धन्यवाद! दुर्भाग्य से मैं अधिक विशिष्ट होना चाहिए था; मैं एक कोसाइन जैसी समानता का उपयोग कर रहा हूं जिसे मैंने स्वयं परिभाषित किया है। यह त्रिभुज असमानता को पूरा नहीं करता है। – user1473883