बाइनरी वैक्टर के एक स्पैससेट डेटासेट को क्लस्टर करना

यदि मेरे पास एक स्पैससेट डेटासेट है जहां प्रत्येक डेटा को 1000 तत्वों के वेक्टर द्वारा वर्णित किया गया है, तो इस वेक्टर का प्रत्येक तत्व या तो 0 या 1 (बहुत सारे 0 और कुछ 1) हो सकता है, आप किसी दूरस्थ दूरी को जानते हैं जो उन्हें क्लस्टर करने में मेरी मदद कर सकता है? इस मामले में यूक्लिडियन दूरी की तरह कुछ सुविधाजनक है? मैं जानना चाहता हूं कि मेरे डेटा पर प्रयास करने के लिए ऐसी स्थिति के लिए एक आसान सुविधाजनक दूरी मीट्रिक है या नहीं।बाइनरी वैक्टर के एक स्पैससेट डेटासेट को क्लस्टर करना

धन्यवाद

स्रोत

2011-12-20 shn

के-मेलोइड्स में विरूपण विरूपण के बारे में कैसे? यह यूक्लिडियन दूरी से बहुत अलग नहीं है। – Neo

@ सीआरके के-मेलोइड्स पी = 1 के साथ [मिन्कोव्स्की दूरी] (http://en.wikipedia.org/wiki/Minkowski_distance) का उपयोग करता है, जो यूक्लिडियन दूरी का एक सामान्य मामला है, है ना? – shn

(मैं व्यक्तिगत रूप से कोज्या की तरह। वहाँ भी KL-विचलन है, और उसके जेन्सेन दूरी समकक्ष।) दूरी कार्यों ऐसे कोसाइन दूरी और के रूप में विरल पाठ वैक्टर, के लिए इस्तेमाल किया पर एक नज़र डालें सेट की तुलना करने के लिए, जैसे जैककार्ड दूरी।

स्रोत

2011-12-21 08:10:13

तो यह वास्तव में और 0 के बहुत कुछ 1 है, तो आप पहले या अंतिम 1 के लिए क्लस्टरिंग की कोशिश कर सकते - देख http://aggregate.org/MAGIC/#Least महत्वपूर्ण 1 बिट

स्रोत

2011-12-20 08:45:37

पहला या आखिरी वाला? इस मामले में परिभाषित दो वैक्टरों के बीच फ़ंक्शन मीट्रिक कैसा है? दूरी (वी 1, वी 2) – shn

आपका प्रश्न एक ही जवाब भी नहीं है। डोमेन के आधार पर सर्वोत्तम अभ्यास हैं।

एक बार जब आप समानता मीट्रिक पर निर्णय लेते हैं, क्लस्टरिंग आमतौर पर औसतन या मेडोडॉइड ढूंढकर किया जाता है।

कार्लोस ओरदोनेज़: एल्गोरिथ्म उदाहरण के लिए क्लस्टरिंग बाइनरी डेटा पर इन कागजों को देखें। के-साधन के साथ क्लिनर बाइनरी डेटा स्ट्रीम। PDF

ताओ ली। क्लस्टरिंग बाइनरी डेटा के लिए एक सामान्य मॉडल। PDF

समानता उपायों पर विचार के इस ऑनलाइन "tool for measuring similarity between binary strings" देखते हैं। वे उल्लेख करते हैं: सोकल-माइकनर, जैकार्ड, रसेल-राव, हैमन, सोरेनसेन, एंटीडाइस, स्नेथ-सोकाल, रॉजर-तनिमोतो, ओचियाई, यूल, एंडरबर्ग, कुलकज़िंस्की, पियरसन की फाई, और गॉवर 2, डॉट उत्पाद, कोसाइन गुणांक, हैमिंग दूरी। उन्होंने यह भी इन कागजों का हवाला देते हैं:

ल्यूक, बी टी, समूहन बाइनरी ऑब्जेक्ट्स

लिन, डी, समानता का एक जानकारी रिप्ले परिभाषा।

टोइट, डु एसएचसी ;; स्टेन, एजी डब्ल्यू .; स्टंपफ, आरएच; ग्राफिकल एक्सप्लोरेटरी डेटा विश्लेषण; अध्याय 3, पी। 77, 1 9 86; स्प्रिंगर-वर्लग।

स्रोत

2011-12-20 10:39:55 cyborg

आपके उत्तर के लिए धन्यवाद, यह एक दिलचस्प लिंक है। लेकिन, हम हैमिंग (या कोसाइन या किसी अन्य दूरी) का उपयोग करते हैं, हम वैक्टर के प्रत्येक समूह के प्रतिनिधि को कैसे सीख सकते हैं।मेरा मतलब है, मान लीजिए कि हमारे पास v1 = 0100100001100 और v2 = 0001100001100 है, वे एक-दूसरे के करीब हैं क्योंकि वे केवल दो बिट्स (दूसरी और तीसरी स्थिति) में भिन्न होते हैं, उदाहरण के लिए हैमिंग दूरी 2 होगी (कोसाइन 0.7500 होगा), समस्या यह है कि v1 और v2 के प्रतिनिधि वेक्टर क्या होंगे? वेक्टर के मूल्यों को कैसे सीखें (सीखें) जो v1 और v2 और उनके आस-पास के सभी अन्य वैक्टरों का प्रतिनिधित्व करना चाहिए। – shn

प्रतिनिधि वेक्टर औसत (* सेंट्रॉइड *, बाइनरी नहीं) या एक * medoid * है। उनको ढूंढने के उदाहरणों के लिए कागजात पढ़ें। बाइनरी स्ट्रिंग्स के बीच समानता को मापने के लिए – cyborg

डेड लिंक "टूल" – Ahue

बाइनरी वैक्टर के लिए कई दूरी/समानता समारोह प्रस्तावित किया गया है।

A Survey of Binary Similarity and Distance Measures - Choi, Cha, Tappert 2010 में, लेखक 76 ऐसे कार्यों की सूची देते हैं।

स्रोत

2016-07-02 08:29:05

बाइनरी वैक्टर के एक स्पैससेट डेटासेट को क्लस्टर करना

उत्तर

संबंधित मुद्दे