आर

2013-11-28 3 views
31

में 'पैमाने' को समझना मैं scale की परिभाषा को समझने की कोशिश कर रहा हूं जो आर प्रदान करता है। मेरे पास डेटा है (mydata) कि मैं एक गर्मी का नक्शा बनाना चाहता हूं, और एक बहुत मजबूत सकारात्मक skew है। मैंने scale(mydata) और log(my data) दोनों के लिए एक डेंडरोग्राम के साथ एक हीटमैप बनाया है, और डेंडरोग्राम दोनों के लिए अलग हैं। क्यूं कर? मेरे डेटा को स्केल करने का क्या मतलब है, बनाम लॉग मेरे डेटा को बदलता है? और यदि मैं अपने डेटा के कॉलम के बीच संबंधों को चित्रित करने वाले डेंड्रोग्राम को देखना चाहता हूं तो कौन सा उचित होगा?आर

किसी भी मदद के लिए धन्यवाद! मैंने परिभाषाएं पढ़ी हैं लेकिन वे मेरे सिर पर झुका रहे हैं।

उत्तर

54

log वेक्टर के प्रत्येक तत्व के केवल लॉगेरिथम (आधार e, डिफ़ॉल्ट रूप से) लेता है।
scale, डिफ़ॉल्ट सेटिंग्स के साथ, पूरे वेक्टर के औसत और मानक विचलन की गणना करेगा, फिर एसडी द्वारा माध्य और विभाजन को घटाकर उन मानों द्वारा प्रत्येक तत्व को "स्केल" करें। (आप scale(x, scale=FALSE) का उपयोग करते हैं, यह केवल मतलब घटाना होगा, लेकिन एसटीडी विचलन से विभाजित नहीं।)

ध्यान दें कि यह आप ही मान

set.seed(1) 
    x <- runif(7) 

    # Manually scaling 
    (x - mean(x))/sd(x) 

    scale(x) 
+0

धन्यवाद! लेकिन पैमाने() का महत्व क्या है? इसका उपयोग करने के लिए मेरा तर्क क्या हो सकता है (यह डेटा को अच्छी तरह से दिखता है, आदि)। मैं सिर्फ 'बिंदु' पैमाने() को समझने की कोशिश कर रहा हूं। धन्यवाद! – Jen

+14

'स्केल' अधिक समझ में आता है जब आपके पास कई चर होते हैं जिन्हें आप अलग-अलग पैमाने पर विचार कर रहे हैं। उदाहरण के लिए, एक var परिमाण 100 के क्रम का है जबकि दूसरा परिमाण 1000000 –

+10

@ जेन: इसके बारे में सोचने के लिए एक और (बहुत खोना) तरीका है: 'स्केल' का उपयोग करते समय, आप डेटा नहीं बदल रहे हैं, बल्कि आप बदल रहे हैं पैमाने (प्लॉट करते समय अक्ष मूल्य)। धुरी को दो सिरों पर पकड़ने और इसे खींचने या संपीड़ित करने के बारे में सोचें। वह पैमाने है। इसके विपरीत, 'लॉग' वास्तव में डेटा को बदल देता है। लॉग का प्रभाव बड़े मूल्यों के लिए "मजबूत" है और छोटे मानों के लिए अधिक न्यूनतम है। –

6

यह और कुछ नहीं प्रदान करता है, लेकिन एक मानकीकरण दे देंगे डेटा का इसके द्वारा बनाए गए मूल्यों को कई अलग-अलग नामों के तहत जाना जाता है, उनमें से एक z-scores ("Z" है क्योंकि सामान्य वितरण को "Z वितरण" भी कहा जाता है)।

अधिक यहां पाया जा सकता: जवाब के लिए

http://en.wikipedia.org/wiki/Standard_score