एकाधिक-स्क्वायर और एडजस्टेड आर-स्क्वायर के बीच एक अंतर-भिन्नतम वर्ग रिग्रेशन में अंतर क्या है?

कोई व्यक्ति सांख्यिकीय रूप से बेवकूफ़ों को समझा सकता है कि Multiple R-squared और Adjusted R-squared के बीच क्या अंतर है?एकाधिक-स्क्वायर और एडजस्टेड आर-स्क्वायर के बीच एक अंतर-भिन्नतम वर्ग रिग्रेशन में अंतर क्या है?

v.lm <- lm(epm ~ n_days, data=v) 
print(summary(v.lm))

परिणाम:: इस प्रकार मैं एक एकल variate प्रतिगमन विश्लेषण कर रहा हूँ

Call: 
lm(formula = epm ~ n_days, data = v) 

Residuals: 
    Min  1Q Median  3Q  Max 
-693.59 -325.79 53.34 302.46 964.95 

Coefficients: 
      Estimate Std. Error t value Pr(>|t|)  
(Intercept) 2550.39  92.15 27.677 <2e-16 *** 
n_days  -13.12  5.39 -2.433 0.0216 * 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom 
Multiple R-squared: 0.1746,  Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF, p-value: 0.0216

स्रोत

2010-05-20 fmark

आंकड़े ओवरव्लो एक उत्कृष्ट विचार है। मुझे उम्मीद है कि किसी ने इसे एक नई स्टैक एक्सचेंज साइट के रूप में सुझाव दिया है। – neilfws

जाओ और इसके लिए वोट दें: http://meta.stackexchange.com/questions/5547/proposal-for-statistics-data-mining-stackexchange-site – fmark

आपका मतलब है http://www.crossvalidated.com (उर्फ http : //stats.stackexchange.com)? –

"समायोजन" में समायोजित R-squared चर की संख्या और टिप्पणियों की संख्या से संबंधित है।

यदि आप अपने मॉडल में चर (predictors) जोड़ते रहते हैं, तो आर-स्क्वायर में सुधार होगा - यानी भविष्यवाणियों में भिन्नता की व्याख्या होगी - लेकिन उनमें से कुछ सुधार अकेले मौके के कारण हो सकते हैं। इसलिए समायोजित आर-स्क्वायर इस अनुपात को सही करने के लिए प्रयास करता है, अनुपात (एन -1)/(एन-के -1) को ध्यान में रखते हुए, जहां एन = अवलोकनों की संख्या और के = चर के संख्या (भविष्यवाणियों)।

यह शायद आपके मामले में कोई चिंता नहीं है, क्योंकि आपके पास एक ही भिन्नता है।

कुछ संदर्भों:

स्रोत

2010-05-20 03:09:19 neilfws

R-squared मॉडल में चर की संख्या पर निर्भर नहीं है। समायोजित आर-वर्ग है।

समायोजित आर-स्क्वायर उस मॉडल में चर जोड़ने के लिए जुर्माना जोड़ता है जो आपके द्वारा व्याख्या करने की कोशिश करने वाले चर के साथ असंबद्ध है। आप यह जांचने के लिए इसका उपयोग कर सकते हैं कि कोई वैरिएबल उस चीज़ से प्रासंगिक है जो आप समझाने की कोशिश कर रहे हैं।

एडजस्टेड आर-स्क्वायर आर-स्क्वायर है जो कुछ डिवीजनों के साथ मॉडल में चर की संख्या पर निर्भर करता है।

स्रोत

2010-05-20 03:16:22 Jay

नोट: एक प्रतिगमन के लिए भविष्यवाणियों को जोड़ना लगभग हमेशा आर-स्क्वायर बढ़ाएगा, भले ही यादृच्छिक नमूनाकरण के कारण केवल थोड़ी देर तक। –

टाइ जेरोमी, मेरा मतलब है कि ऊपर जाने के बजाय "नीचे जाना" कहना है। मॉडल में एक नया चर जोड़ने के परिणामस्वरूप आर-स्क्वायर कभी नहीं गिर जाएगा। यदि कोई नया चर जोड़ा जाता है तो समायोजित आर-स्क्वायर ऊपर या नीचे जा सकता है। यह एक बुरा उदाहरण था, इसलिए मैंने इसे हटा दिया। – Jay

समायोजित आर-स्क्वायर आर 2 के मूल्य के करीब है, लेकिन इससे अलग है। वर्ग एसएसआर के समेकित योग और एसएसवाई के कुल योग के आधार पर होने के बजाय, यह समग्र भिन्नता (एक मात्रा जिसे हम आम तौर पर गणना नहीं करते हैं) पर आधारित है, एस 2 टी = एसएसवाई/(एन -1) और त्रुटि भिन्नता एमएसई (एनोवा टेबल से) और इस तरह से काम किया जाता है: समायोजित आर-स्क्वायर = (एस 2 टी - एमएसई)/एस 2 टी।

यह दृष्टिकोण स्पष्टीकरण चर जोड़ने के कारण फिट में सुधार का न्याय करने के लिए एक बेहतर आधार प्रदान करता है, लेकिन इसमें आर 2 के सरल संक्षेप में व्याख्या नहीं है।

अगर मैं एक गलती नहीं की है, तो आप इस प्रकार समायोजित R-squared और आर-वर्ग के मूल्यों को सत्यापित करना चाहिए:

s2T <- sum(anova(v.lm)[[2]])/sum(anova(v.lm)[[1]]) 
MSE <- anova(v.lm)[[3]][2] 
adj.R2 <- (s2T - MSE)/s2T

दूसरी ओर, आर 2 है: एसएसआर/SSY, जहां एसएसआर = SSY - SSE

attach(v) 
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2) 
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2) 
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2) 
R2 <- SSR/SSY

स्रोत

2010-05-20 06:53:34

अंतिम कोड बॉक्स में एक टाइपो है: 'deviance (v.lm) 'कॉल वास्तव में मॉडल' एसएसआर 'आउटपुट करेगा, जिसका अर्थ है कि' एसएसई <- (एसएसवाई - एसएसआर)'। 'एसएसवाई' के लिए, मॉडल को दोबारा किए बिना इसे पुनर्प्राप्त करने का एक आसान तरीका होगा: 'एसएसवाई <- योग (एनोवा (वीएलएम) $ "योग वर्ग") '। – landroni

वास्तव में मेरा मतलब यह था कि समझाया गया एसएस के लिए 'एसएसआर' का उपयोग करना counterintuitive था, और' एसएसआर' अवशिष्ट एसएस को अधिक आसानी से दर्शाता है, जबकि एसएसई 'समझाया गया एसएस ... – landroni

एसएसआर रिग्रेशन के कारण वर्गों का योग है। Rquares के अवशिष्ट रम "आरएसएस" है https://en.wikipedia.org/wiki/Explained_sum_of_squares –

ध्यान दें कि, भविष्य कहनेवाला चर की संख्या के अलावा, ऊपर समायोजित R-squared सूत्र भी नमूना आकार के लिए समायोजित करता है। एक छोटा नमूना एक भ्रामक रूप से बड़े आर-स्क्वायर देगा।

पिंग यिन & Xitao फैन, प्रायोगिक जे शिक्षा 69 (2): 203-224, "कई प्रतिगमन में आर-वर्ग संकोचन का आकलन", आर-वर्ग को एडजस्ट करने के लिए विभिन्न तरीकों तुलना करता है और निष्कर्ष निकाला है कि सामान्य रूप से प्रयुक्त ऊपर उद्धृत वाले लोग अच्छे नहीं हैं। वे ओल्किन & प्रैट फॉर्मूला की सलाह देते हैं।

हालांकि, मैंने कुछ संकेत देखा है कि इन सूत्रों में से किसी भी तुलना में आबादी का आकार बहुत बड़ा प्रभाव पड़ता है। मुझे विश्वास नहीं है कि इनमें से कोई भी सूत्र पर्याप्त पर्याप्त नमूना आकारों के साथ किए गए प्रतिगमन की तुलना करने के लिए पर्याप्त है (उदाहरण के लिए, 2,000 बनाम 200,000 नमूने; मानक सूत्र लगभग नमूना-आकार-आधारित समायोजन नहीं करेंगे)। मैं प्रत्येक नमूने पर आर-स्क्वायर की जांच करने के लिए कुछ क्रॉस-सत्यापन करता हूं।

स्रोत

2011-12-29 23:31:32

एकाधिक-स्क्वायर और एडजस्टेड आर-स्क्वायर के बीच एक अंतर-भिन्नतम वर्ग रिग्रेशन में अंतर क्या है?

उत्तर

संबंधित मुद्दे