2009-12-03 10 views
35

उनके लक्ष्य सभी एक ही कर रहे हैं। जो तुम जो स्थिति में प्रयोग करते हैं? (किसी भी व्यावहारिक उदाहरण?)इयूक्लिडियन दूरी बनाम पियर्सन सहसंबंध बनाम कोज्या समानता? इसी तरह वैक्टर लगता है:

उत्तर

42

पियर्सन सहसंबंध और कोज्या समानता स्केलिंग, यानि कि एक अशून्य निरंतर द्वारा सभी तत्वों को गुणा करने के लिए अपरिवर्तनीय हैं। पियरसन सहसंबंध सभी तत्वों को निरंतर जोड़ने के लिए भी परिवर्तनीय है। उदाहरण के लिए, आप दो वैक्टर X1 और X2 है, और अपने पियर्सन सहसंबंध समारोह pearson() कहा जाता है, pearson(X1, X2) == pearson(X1, 2 * X2 + 3)। यह एक बहुत महत्वपूर्ण संपत्ति क्योंकि आप अक्सर परवाह नहीं है कि दो वैक्टर निरपेक्ष दृष्टि से समान हैं, केवल यह है कि वे एक ही तरह से अलग-अलग है।

+3

क्षमा याचना की व्याख्या की। मैं थोड़ा गलत था। कोसाइन समानता ** सभी तत्वों के लिए स्थिर जोड़ने के लिए ** नहीं है। मैंने इसे ठीक कर दिया है। बड़ा बिंदु अभी भी है। – dsimcha

17

पियर्सन सहसंबंध गुणांक और कोसाइन समानता के बीच का अंतर उनके सूत्रों से देखा जा सकता:

enter image description here

कारण पियर्सन सहसंबंध गुणांक किसी भी निरंतर जोड़ने के लिए अपरिवर्तनीय है कि साधन निर्माण से बाहर घटाया जाता है। यह भी कि पियर्सन सहसंबंध गुणांक और कोसाइन समानता बराबर हैं X और Y0 के साधन है जब देखने के लिए आसान है, इसलिए हम कोसाइन समानता की अपमानित संस्करण के रूप में पियर्सन सहसंबंध गुणांक के बारे में सोच सकते हैं।

व्यावहारिक उपयोग के लिए, हम दो संपत्ति x और y के रिटर्न पर विचार करते हैं:

In [275]: pylab.show() 

In [276]: x = np.array([0.1, 0.2, 0.1, -0.1, 0.5]) 

In [277]: y = x + 0.1 

enter image description here

ये संपत्ति का रिटर्न रखते हैं ठीक उसी परिवर्तनशीलता, जो पियर्सन सहसंबंध गुणांक से मापा जाता है (1) , लेकिन वे बिल्कुल समान नहीं हैं जो कोसाइन समानता (0.971) द्वारा मापा जाता है।

In [281]: np.corrcoef([x, y]) 
Out[281]: 
array([[ 1., 1.], # The off diagonal are correlations 
     [ 1., 1.]]) # between x and y 

In [282]: from sklearn.metrics.pairwise import cosine_similarity 

In [283]: cosine_similarity(x, z) 
Out[283]: array([[ 0.97128586]]) 
1

@ dsimcha के जवाब के अलावा, मूल डेटा के एक उपसमूह की कोज्या समानता मूल डेटा है, जो पियर्सन सहसंबंध लिए सही नहीं है की तरह ही हैं। जब अपने डेटा के सबसेट क्लस्टरिंग यह उपयोगी हो सकता है: वे (सांस्थितिकी) मूल क्लस्टरिंग के समान हैं, इसलिए वे और अधिक आसानी से देखे जा सकते हैं और

संबंधित मुद्दे