उनके लक्ष्य सभी एक ही कर रहे हैं। जो तुम जो स्थिति में प्रयोग करते हैं? (किसी भी व्यावहारिक उदाहरण?)इयूक्लिडियन दूरी बनाम पियर्सन सहसंबंध बनाम कोज्या समानता? इसी तरह वैक्टर लगता है:
उत्तर
पियर्सन सहसंबंध और कोज्या समानता स्केलिंग, यानि कि एक अशून्य निरंतर द्वारा सभी तत्वों को गुणा करने के लिए अपरिवर्तनीय हैं। पियरसन सहसंबंध सभी तत्वों को निरंतर जोड़ने के लिए भी परिवर्तनीय है। उदाहरण के लिए, आप दो वैक्टर X1 और X2 है, और अपने पियर्सन सहसंबंध समारोह pearson()
कहा जाता है, pearson(X1, X2) == pearson(X1, 2 * X2 + 3)
। यह एक बहुत महत्वपूर्ण संपत्ति क्योंकि आप अक्सर परवाह नहीं है कि दो वैक्टर निरपेक्ष दृष्टि से समान हैं, केवल यह है कि वे एक ही तरह से अलग-अलग है।
पियर्सन सहसंबंध गुणांक और कोसाइन समानता के बीच का अंतर उनके सूत्रों से देखा जा सकता:
कारण पियर्सन सहसंबंध गुणांक किसी भी निरंतर जोड़ने के लिए अपरिवर्तनीय है कि साधन निर्माण से बाहर घटाया जाता है। यह भी कि पियर्सन सहसंबंध गुणांक और कोसाइन समानता बराबर हैं X
और Y
0
के साधन है जब देखने के लिए आसान है, इसलिए हम कोसाइन समानता की अपमानित संस्करण के रूप में पियर्सन सहसंबंध गुणांक के बारे में सोच सकते हैं।
व्यावहारिक उपयोग के लिए, हम दो संपत्ति x
और y
के रिटर्न पर विचार करते हैं:
In [275]: pylab.show()
In [276]: x = np.array([0.1, 0.2, 0.1, -0.1, 0.5])
In [277]: y = x + 0.1
ये संपत्ति का रिटर्न रखते हैं ठीक उसी परिवर्तनशीलता, जो पियर्सन सहसंबंध गुणांक से मापा जाता है (1) , लेकिन वे बिल्कुल समान नहीं हैं जो कोसाइन समानता (0.971) द्वारा मापा जाता है।
In [281]: np.corrcoef([x, y])
Out[281]:
array([[ 1., 1.], # The off diagonal are correlations
[ 1., 1.]]) # between x and y
In [282]: from sklearn.metrics.pairwise import cosine_similarity
In [283]: cosine_similarity(x, z)
Out[283]: array([[ 0.97128586]])
@ dsimcha के जवाब के अलावा, मूल डेटा के एक उपसमूह की कोज्या समानता मूल डेटा है, जो पियर्सन सहसंबंध लिए सही नहीं है की तरह ही हैं। जब अपने डेटा के सबसेट क्लस्टरिंग यह उपयोगी हो सकता है: वे (सांस्थितिकी) मूल क्लस्टरिंग के समान हैं, इसलिए वे और अधिक आसानी से देखे जा सकते हैं और
- 1. न्यूनतम इयूक्लिडियन दूरी, नहीं
- 2. किसी विशेष प्रकार की समानता सूचकांक का उपयोग कब करना है? यूक्लिडियन दूरी बनाम पियरसन सहसंबंध
- 3. रोटेशन वैक्टर बनाम quaternions
- 4. वेक्टर की कोज्या समानता, साथ <O (n^2) जटिलता
- 5. strcmp बनाम == बनाम === PHP में हैश समानता
- 6. स्ट्रिंग समानता स्थान की समानता बनाम
- 7. sqlalchemy id समानता बनाम संदर्भ समानता
- 8. समानता आर (संपादित दूरी)
- 9. सी ++ - सेमीथ बनाम math.h (और इसी तरह के सी-प्रीफिक्स्ड बनाम एचएच एक्सटेंशन हेडर)
- 10. एनएसयूइन्टर बनाम एनएसआईएनटेगर, इंट बनाम हस्ताक्षर किए गए, और इसी तरह के मामले
- 11. गतिशील सरणी बनाम एसटीएल वैक्टर सटीक अंतर?
- 12. गणना दूरी
- 13. स्ट्रिंग समानता -> लेवेनशेटिन दूरी
- 14. इसी तरह के कोड डिटेक्टर
- 15. UIActivityIndicatorView या इसी तरह
- 16. इसी तरह के क्लॉज
- 17. 'इसी तरह की छवियां'
- 18. इसी तरह के रंगों की छवियां
- 19. बनाम बनाम
- 20. आरजीबी इसी तरह के रंग अनुमान एल्गोरिदम
- 21. स्टॉपवॉच या इसी तरह के
- 22. रीडलॉन और इसी तरह के
- 23. इसी तरह के शब्दों की खोज
- 24. ओएसजीआई बनाम स्प्रिंग बनाम स्ट्रैट्स बनाम ईजेबी बनाम हाइबरनेट - एक पूरी तरह से नौसिखिया का प्रश्न
- 25. MySQL की तरह बनाम ढूँढें
- 26. MySQL अनुकूलन, "की तरह" बनाम "="
- 27. स्कैला: जैक्सबी या इसी तरह?
- 28. सीपीपीयूनीट या इसी तरह के
- 29. sed या इसी तरह के
- 30. एएसएसईआर बनाम एटलसैट बनाम
क्षमा याचना की व्याख्या की। मैं थोड़ा गलत था। कोसाइन समानता ** सभी तत्वों के लिए स्थिर जोड़ने के लिए ** नहीं है। मैंने इसे ठीक कर दिया है। बड़ा बिंदु अभी भी है। – dsimcha