मुझे क्लस्टर की प्रीसेट संख्या में एक साधारण यूनिवर्सेट डेटा सेट क्लस्टर करने की आवश्यकता है। तकनीकी रूप से यह डेटा को कताई या सॉर्ट करने के करीब होगा क्योंकि यह केवल 1 डी है, लेकिन मेरा मालिक इसे क्लस्टरिंग कह रहा है, इसलिए मैं उस नाम से चिपकने जा रहा हूं। सिस्टम द्वारा उपयोग की जाने वाली वर्तमान विधि के-साधन है, लेकिन यह ओवरकिल की तरह लगता है।विज्ञान के सीखने में 1 डी क्लस्टरिंग विधि के रूप में कर्नेल घनत्व अनुमान का उपयोग कैसे किया जाएगा?
क्या यह कार्य करने का बेहतर तरीका है?
कुछ अन्य पोस्टों के उत्तर केडीई (कर्नेल घनत्व अनुमान) का उल्लेख कर रहे हैं, लेकिन यह घनत्व अनुमान विधि है, यह कैसे काम करेगा?
मैं देखता हूं कि केडीई घनत्व कैसे लौटाता है, लेकिन मैं इसे डेटा को डिब्बे में विभाजित करने के लिए कैसे कहूं?
मेरे पास डेटा से स्वतंत्र डिब्बे की एक निश्चित संख्या कैसे है (यह मेरी आवश्यकताओं में से एक है)?
अधिक विशेष रूप से, कोई भी विज्ञान सीखने का उपयोग करके इसे कैसे खींच सकता है?
मेरे इनपुट फ़ाइल की तरह दिखता है:
str ID sls
1 10
2 11
3 9
4 23
5 21
6 11
7 45
8 20
9 11
10 12
मैं समूह के लिए भी क्लस्टर या डिब्बे में एसएलएस संख्या चाहते हैं, जैसे कि:
Cluster 1: [10 11 9 11 11 12]
Cluster 2: [23 21 20]
Cluster 3: [45]
और मेरी आउटपुट फ़ाइल तरह दिखेगा:
str ID sls Cluster ID Cluster centroid
1 10 1 10.66
2 11 1 10.66
3 9 1 10.66
4 23 2 21.33
5 21 2 21.33
6 11 1 10.66
7 45 3 45
8 20 2 21.33
9 11 1 10.66
10 12 1 10.66
के-साधनों के साथ चिंता क्या है? प्रदर्शन? –
kmeans kde – lejlot
@ डेविडमास्ट 1 से अधिक कुशल है) जब मैंने यूनिवर्सेट डेटा पर sklearn के के-साधन चलाने की कोशिश की, तो मुझे त्रुटियां मिलनी शुरू हुईं। मुझे इसे 2 डी डेटा पर क्लस्टर करके इसे ट्रिक करना था जो मूल 1 डी डेटा की समान प्रतियां थीं। 2) इस [पोस्ट] के अनुसार (http://stackoverflow.com/a/11516590/3967806) यह एक बुरा विचार है। –