2017-02-07 6 views
6

स्पष्ट डेटा के विश्लेषण में, हम अक्सर द्विपक्षीय परिणामों और एक या अधिक कॉवरिएट्स के बीच संबंधों का अनुमान लगाने के लिए लॉजिस्टिक रिग्रेशन का उपयोग करते हैं।क्या सामान्यीकृत रैखिक मॉडल का उपयोग करके बहुराष्ट्रीय मॉडलों का अनुमान लगाया जा सकता है?

मुझे समझ में आता है कि यह सामान्यीकृत रैखिक मॉडल (जीएलएम) का एक प्रकार है। आर में, यह तर्क का उपयोग कर glm फ़ंक्शन के साथ कार्यान्वित किया गया है। दूसरी ओर, स्पष्ट डेटा विश्लेषण में बहुराष्ट्रीय मॉडल हैं। क्या ये जीएलएम नहीं हैं? और glm फ़ंक्शन का उपयोग करके आर में अनुमान लगाया जा सकता है?

क्यों GLMs के वर्ग दिचोतोमोउस परिणामों के लिए प्रतिबंधित है (इस post for Multinomial Logistic Regression में। लेखक एक बाहरी पैकेज mlogit है, जो भी पुराना लगता है का उपयोग करता है)? क्या ऐसा इसलिए है क्योंकि मल्टी-क्लास वर्गीकरण को कई बाइनरी वर्गीकरण मॉडल के रूप में माना जा सकता है?

+0

आर कैसे काम करता है, क्यों कुछ कार्य मौजूद हैं और अन्य नहीं, आदि यहां प्रश्न हैं।ध्यान दें, क्योंकि यह एक प्रोग्रामिंग प्रश्न नहीं है, यह [SO] पर भी विषय बंद होगा, और वहां माइग्रेट नहीं किया जाना चाहिए। – gung

+0

(वास्तव में, नीचे @AdamO द्वारा उत्कृष्ट उत्तर दिया गया है, जिसमें पर्याप्त सांख्यिकीय सामग्री है, मैं अपने करीबी वोट को वापस लेने पर विचार कर रहा हूं।) – gung

+0

@gung मैंने प्रश्न को थोड़ा और प्रासंगिक बनाने के लिए एक संपादन का प्रस्ताव दिया। – AdamO

उत्तर

11

आर में जीएलएम का अनुमान फिशर स्कोरिंग के साथ किया जाता है। मल्टी-श्रेणी लॉगिट के दो दृष्टिकोण दिमाग में आते हैं: आनुपातिक विषम मॉडल और लॉग-रैखिक मॉडल या बहुआयामी प्रतिगमन।

आनुपातिक बाधा मॉडल एक विशेष प्रकार का संचयी लिंक मॉडल है और MASS पैकेज में कार्यान्वित किया गया है। फिशर स्कोरिंग के साथ अनुमान नहीं लगाया जाता है, इसलिए डिफ़ॉल्ट glm.fit कार्य-घोड़ा ऐसे मॉडल का अनुमान लगाने में सक्षम नहीं होगा। दिलचस्प बात यह है कि, संचयी लिंक मॉडल जीएलएम हैं और मैकुलोग और नेल्डर द्वारा नामित पाठ में चर्चा की गई थी। एक समान मुद्दा नकारात्मक द्विपक्षीय जीएलएम के साथ पाया जाता है: वे एक लिंक फ़ंक्शन की सख्त भावना में जीएलएम हैं, और एक संभावित मॉडल, लेकिन विशेष अनुमान दिनचर्या की आवश्यकता होती है। जहां तक ​​आर फंक्शन glm है, किसी को इसे हर प्रकार के जीएलएम के लिए एक संपूर्ण अनुमानक के रूप में नहीं देखना चाहिए।

nnet में लॉगलाइनर मॉडल अनुमानक का कार्यान्वयन है। यह नरम-अधिकतम एन्ट्रॉपी का उपयोग करके उनके अधिक परिष्कृत तंत्रिका शुद्ध अनुमानक के अनुरूप है, जो समकक्ष फॉर्मूलेशन है (सिद्धांत यह दिखाने के लिए है)। यह आपको डिफ़ॉल्ट रूप से glm के साथ लॉग-रैखिक मॉडल अनुमानित कर सकता है यदि आप उत्सुक हैं। कुंजी रसद और poisson प्रतिगमन के बीच संबंध देखने में निहित है। एक परिणाम (लॉग बाधा अनुपात) के लिए एक लॉजिस्टिक मॉडल में पहली ऑर्डर अवधि के रूप में एक गिनती मॉडल (लॉग रिश्तेदार दरों में अंतर) की बातचीत शर्तों को पहचानते हुए, आप मार्जिन पर "कंडीशनिंग" द्वारा समान पैरामीटर और एक ही एसई का अनुमान लगा सकते हैं बहु-श्रेणी के परिणाम के लिए $ K \ times 2 $ आकस्मिक तालिका का। एक उदाहरण मास पैकेज से वीए फेफड़ों के कैंसर डेटा का उपयोग कर के रूप में निम्नलिखित A related SE question on that background is here

लें:

> summary(multinom(cell ~ factor(treat), data=VA)) 
# weights: 12 (6 variable) 
initial value 189.922327 
iter 10 value 182.240520 
final value 182.240516 
converged 
Call: 
multinom(formula = cell ~ factor(treat), data = VA) 

Coefficients: 
    (Intercept) factor(treat)2 
2 6.931413e-01  -0.7985009 
3 -5.108233e-01  0.4054654 
4 -9.538147e-06  -0.5108138 

Std. Errors: 
    (Intercept) factor(treat)2 
2 0.3162274  0.4533822 
3 0.4216358  0.5322897 
4 0.3651485  0.5163978 

Residual Deviance: 364.481 
AIC: 376.481 

तुलना करने के लिए:

> VA.tab <- table(VA[, c('cell', 'treat')]) 
> summary(glm(Freq ~ cell * treat, data=VA.tab, family=poisson)) 

Call: 
glm(formula = Freq ~ cell * treat, family = poisson, data = VA.tab) 

Deviance Residuals: 
[1] 0 0 0 0 0 0 0 0 

Coefficients: 
       Estimate Std. Error z value Pr(>|z|)  
(Intercept) 2.708e+00 2.582e-01 10.488 <2e-16 *** 
cell2   6.931e-01 3.162e-01 2.192 0.0284 * 
cell3  -5.108e-01 4.216e-01 -1.212 0.2257  
cell4  -1.571e-15 3.651e-01 0.000 1.0000  
treat2  2.877e-01 3.416e-01 0.842 0.3996  
cell2:treat2 -7.985e-01 4.534e-01 -1.761 0.0782 . 
cell3:treat2 4.055e-01 5.323e-01 0.762 0.4462  
cell4:treat2 -5.108e-01 5.164e-01 -0.989 0.3226  
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for poisson family taken to be 1) 

    Null deviance: 1.5371e+01 on 7 degrees of freedom 
Residual deviance: 4.4409e-15 on 0 degrees of freedom 
AIC: 53.066 

Number of Fisher Scoring iterations: 3 

में इलाज के लिए बातचीत मापदंडों और मुख्य स्तरों की तुलना करें दूसरे के लिए एक मॉडल। अवरोध की तुलना करें। एआईसी अलग हैं क्योंकि लॉगलाइनर मॉडल तालिका के मार्जिन के लिए एक संभावित मॉडल है जो मॉडल के अन्य मापदंडों द्वारा सशर्त है, लेकिन भविष्यवाणी और अनुमान के संदर्भ में ये दो दृष्टिकोण समान परिणाम प्राप्त करते हैं।

तो संक्षेप में, चाल सवाल! glm मल्टी-श्रेणी लॉजिस्टिक रिग्रेशन को संभालता है, यह इस तरह के मॉडल का गठन करने की अधिक समझ लेता है।

+0

कोड डेमो के साथ बढ़िया जवाब जो मुझे चीजों को अलग-अलग देखने में सक्षम बनाता है कभी भी क्षमता और बहु-वर्ग वर्गीकरण के बीच कनेक्शन नहीं जानता! – hxd1011

संबंधित मुद्दे

 संबंधित मुद्दे