2013-01-17 9 views
5

मैं कुछ डेटा क्लस्टर करने के लिए आवश्यक क्लस्टर की सही संख्या का मूल्यांकन करने की कोशिश कर रहा हूं।क्लस्टर और डेविस-बोल्डिन इंडेक्स की इष्टतम संख्या निर्धारित करना?

मुझे पता है कि डेविस-बोल्डिन इंडेक्स (डीबीआई) का उपयोग करना संभव है।

डीबीआई का उपयोग करने के लिए आपको इसे किसी भी समूह के लिए गणना करना होगा और डीबीआई को कम करने वाले व्यक्ति को आवश्यक क्लस्टर की सही संख्या से मेल खाता है।

सवाल यह है:

कैसे जानना चाहते हैं कि 2 समूहों DBI का उपयोग कर 1 क्लस्टर की तुलना में बेहतर कर रहे हैं? तो, जब मेरे पास केवल 1 क्लस्टर है तो मैं डीबीआई की गणना कैसे कर सकता हूं?

उत्तर

5

केवल सभी क्लस्टर के औसत DBI पर विचार करना एक अच्छा विचार नहीं है।

निश्चित रूप से, समूहों की संख्या में वृद्धि - k, दंड के बिना, हमेशा DBI की राशि जिसके परिणामस्वरूप क्लस्टरिंग में, शून्य DBI की चरम स्थिति के लिए यदि प्रत्येक डेटा बिंदु (अपनी ही क्लस्टर में माना जाता है, क्योंकि प्रत्येक डेटा बिंदु कम हो जाएगा अपने स्वयं के केंद्र के साथ ओवरलैप)।

कैसे पता चलेगा कि 2 क्लस्टर डीबीआई का उपयोग कर 1 क्लस्टर से बेहतर हैं या नहीं? तो, जब मेरे पास केवल 1 क्लस्टर है तो मैं डीबीआई की गणना कैसे कर सकता हूं?

तो यह कहना मुश्किल है कि यदि आप केवल औसत DBI प्रदर्शन मीट्रिक के रूप में उपयोग करते हैं तो कौन सा बेहतर होगा।

Elbow method का उपयोग करने के लिए एक अच्छी व्यावहारिक विधि है।

क्लस्टर की संख्या के एक समारोह के रूप में समझाए गए भिन्नता के प्रतिशत को एक और तरीका दिखता है: आपको कई क्लस्टर चुनना चाहिए ताकि एक और क्लस्टर जोड़ने से डेटा का बेहतर मॉडलिंग न हो। अधिक सटीक, यदि आप समूहों की संख्या के खिलाफ क्लस्टर द्वारा समझाया गया भिन्नता का प्रतिशत ग्राफ करते हैं, तो पहले क्लस्टर अधिक जानकारी जोड़ देंगे (बहुत भिन्नता की व्याख्या करेंगे), लेकिन किसी बिंदु पर मामूली लाभ गिर जाएगा, जिससे कोण ग्राफ। इस बिंदु पर क्लस्टर की संख्या चुनी जाती है, इसलिए "कोहनी मानदंड"।

enter image description here

समूहों के इष्टतम संख्या को चुनने के लिए संबंधित के साथ कुछ अन्य अच्छा विकल्प:

संबंधित मुद्दे