में एनए मानों के साथ क्लस्टरिंग मुझे आश्चर्य हुआ कि clara
library(cluster)
से एनएएस की अनुमति देता है। लेकिन फ़ंक्शन प्रलेखन यह मानता है कि यह इन मानों को कैसे प्रबंधित करता है।आर
तो मेरी प्रश्न हैं:
clara
कैसे संभालती NAS?- क्या यह किसी भी तरह से
kmeans
(नास की अनुमति नहीं है) के लिए उपयोग किया जा सकता है?
[अपडेट] clara
समारोह में कोड की तो मैंने पाया था कि लाइनों:
inax <- is.na(x)
valmisdat <- 1.1 * max(abs(range(x, na.rm = TRUE)))
x[inax] <- valmisdat
जो valmisdat
द्वारा मूल्य प्रतिस्थापन याद आ रही है। यकीन नहीं है कि मैं इस सूत्र का उपयोग करने के कारण को समझता हूं। कोई विचार? क्या प्रत्येक कॉलम द्वारा अलग-अलग एनएएस का इलाज करने के लिए यह "प्राकृतिक" होगा, शायद औसत/औसत के साथ बदलना?
'क्लैसी' फ़ंक्शन में 'डेज़ी' में अनुपलब्ध मानों का इलाज करने के लिए समान कोड लाइनें (मेरा प्रश्न अपडेट देखें)। –
@ danas.zuokas मुझे यकीन नहीं है कि स्रोत से उन कोडों की मनमानी रेखाओं को खींचना कितना उपयोगी है जो आपको लगता है कि प्रश्न से संबंधित है। आपको आर कोड और सी कोड दोनों का अध्ययन करने की आवश्यकता है। 'valmisdat' वह मान है जो सीए कोड में लापता डेटा (' एनए ') को इंगित करने के लिए उपयोग किया जाता है, बजाय इसे' एनए 'का उपयोग करने के बजाय। यदि आप सी कोड देखते हैं तो आप देखेंगे कि यह स्पष्ट रूप से उन तुलनाओं को अनदेखा करता है जहां एक चर के पास एक या दूसरे या दोनों नमूनों के लिए अनुपलब्ध मूल्य होता है जिसके लिए असमानता की गणना की जा रही है। कोड में पॉइंटर के लिए अद्यतन उत्तर देखें। –
धन्यवाद, गेविन! –