के सेट की तुलना में मेरे पास डेटा के 2000 सेट हैं जिनमें प्रत्येक से 1000 से अधिक 2 डी चर शामिल हैं। मैं इसी तरह के आधार पर डेटा के इन सेटों को 20-100 क्लस्टर से कहीं भी क्लस्टर करना चाहता हूं। हालांकि, मुझे डेटा के सेट की तुलना करने की विश्वसनीय विधि के साथ आने में परेशानी हो रही है। मैंने कुछ (बल्कि आदिम) दृष्टिकोण और शोध के भारों की कोशिश की है, लेकिन मुझे ऐसा कुछ भी नहीं लगता है जो मुझे करने की ज़रूरत है।2 डी डेटा/स्कैटरप्लॉट्स
मैंने अपने डेटा प्लॉट किए गए 3 सेट के नीचे एक छवि पोस्ट की है। डेटा वाई अक्ष में 0-1 से घिरा हुआ है, और x अक्ष में ~ 0-0.10 रेंज के भीतर है (अभ्यास में, लेकिन सिद्धांत में 0.10 से अधिक हो सकता है)।
डेटा के आकार और सापेक्ष अनुपात शायद तुलना करने के लिए सबसे महत्वपूर्ण चीजें हैं। हालांकि, प्रत्येक डेटा सेट के पूर्ण स्थान भी महत्वपूर्ण हैं। दूसरे शब्दों में, प्रत्येक व्यक्ति की सापेक्ष स्थिति किसी अन्य डेटासेट के अलग-अलग बिंदुओं के करीब होती है, उतनी ही समान होगी और फिर उनके पूर्ण पदों के लिए जिम्मेदार होना होगा।
ग्रीन और लाल को बहुत अलग माना जाना चाहिए, लेकिन धक्का ढकने के लिए आता है, वे नीले और लाल से अधिक समान होना चाहिए।
मैं करने की कोशिश की:
- समग्र overages और विचलन
- समन्वय क्षेत्रों (में चर विभाजित के आधार पर तुलना यानी (0-0.10, 0-0.10), (0.10 -0.20, 0.10-0.20) ... (0.9-1.0, 0.9-1.0)) और क्षेत्र
- के बीच साझा बिंदुओं के आधार पर समानता की तुलना करें मैंने डेटा सेट के बीच निकटतम पड़ोसियों को औसत यूक्लिडियन दूरी को मापने का प्रयास किया है
इन सभी ने दोषपूर्ण परिणाम दिए हैं। मेरे शोध में मुझे सबसे नज़दीकी उत्तर मिल सकता था "Appropriate similarity metrics for multiple sets of 2D coordinates"। हालांकि, वहां दिए गए उत्तर से केंद्र के निकट पड़ोसियों के बीच औसत दूरी की तुलना करने का सुझाव मिलता है, जो मुझे नहीं लगता कि मेरे लिए दिशा के रूप में काम करेगा, मेरे उद्देश्यों की दूरी जितना महत्वपूर्ण होगा।
मैं जोड़ सकता हूं, कि इसका उपयोग किसी अन्य प्रोग्राम के इनपुट के लिए डेटा उत्पन्न करने के लिए किया जाएगा और केवल स्पोरैडिक रूप से उपयोग किया जाएगा (मुख्य रूप से क्लस्टर की विभिन्न संख्याओं के साथ डेटा के विभिन्न सेट उत्पन्न करने के लिए), इसलिए अर्द्ध समय लेने वाले एल्गोरिदम नहीं हैं सवाल से बाहर।
जो ब्लो से सहमत हैं - आप हरे, नीले, लाल बिंदुओं के लिए 3 लाइन समीकरण प्राप्त करने और इन तीन समीकरणों के लिए ढलान और अवरोध की तुलना करने के लिए कम से कम वर्ग विधि के साथ एक रैखिक फिट करने का प्रयास कर सकते हैं। –
इसके अलावा आप क्लस्टर के बीच हॉउसडॉफ़ दूरी की तुलना करने का प्रयास कर सकते हैं। –
क्या सभी डेटासेट में संख्याओं की संख्या समान है? क्या अंक महत्वपूर्ण हैं (क्या बिंदु # 5 के सभी डेटासेट के लिए समान अर्थ है?) – tkerwin