मैं के-मीन्स के साथ कैनोपी क्लस्टरिंग एल्गोरिदम लागू करने की कोशिश कर रहा हूं। मैंने कुछ खोज ऑनलाइन कर दी हैं जो आपके शुरुआती शुरुआती बिंदुओं को के-साधनों में खिलाने के लिए कैनोपी क्लस्टरिंग का उपयोग करने के लिए कहती हैं, समस्या यह है कि कैनोपी क्लस्टरिंग में, आपको चंदवा के लिए 2 थ्रेसहोल्ड मान निर्दिष्ट करने होंगे: टी 1 और टी 2, जहां आंतरिक दहलीज में अंक दृढ़ता से उस चंदवा से बंधे होते हैं और व्यापक सीमा में बिंदु उस चंदवा से कम बंधे होते हैं। इन दहलीज, या चंदवा केंद्र से दूरी कैसे निर्धारित की जाती है?कैनोपी क्लस्टरिंग के लिए टी 1 और टी 2 थ्रेसहोल्ड मान कैसे चुनें?
समस्या संदर्भ:
समस्या मैं हल करने के लिए कोशिश कर रहा हूँ, मैं 50 के बारे में सेट आकारों के साथ इस तरह के [1,30] या [1250] के रूप में संख्या का एक सेट है वहाँ डुप्लिकेट तत्वों को हो सकता है और वे फ्लोटिंग पॉइंट नंबर भी हो सकते हैं, जैसे 8, 17.5, 17.5, 23, 66, ... मैं इष्टतम क्लस्टर, या संख्याओं के सेट के सबसेट ढूंढना चाहता हूं।
तो, यदि के-साधनों के साथ कैनोपी क्लस्टरिंग एक अच्छी पसंद है, तो मेरे प्रश्न अभी भी खड़े हैं: आप टी 1, टी 2 मान कैसे प्राप्त करते हैं? यदि यह एक अच्छा विकल्प नहीं है, तो क्या उपयोग करने के लिए एक बेहतर, सरल लेकिन प्रभावी एल्गोरिदम है?
यहां एक और समान प्रश्न है http://stats.stackexchange.com/questions/13895/how-do-i-algorithmically-determine-values-of-t1-t2-for-canopy-clustering – cyraxjoe
क्या आपके पास कोई है इसके साथ भाग्य अभी तक? मैं के-मीन्स को खिलाने के लिए प्रारंभिक क्लस्टर सेट खोजने के लिए कैनोपी क्लस्टरिंग का उपयोग करना चाहता हूं। मैं यहां वर्णित अनुसार "जंप विधि" का उपयोग कर सकता हूं [http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set) (जो विधि के समान लगता है @rpd उसके उत्तर में वर्णित है), लेकिन यदि आपको मिला है टी 1 और टी 2 निर्धारित करने का एक अच्छा तरीका मैं इसके बजाय कैनोपी क्लस्टरिंग का उपयोग करना चाहता हूं। – JesseBuesking