2011-08-01 9 views
5

मैं डेटा सेट में अनुपलब्ध मानों को लागू करने के तरीकों का पता लगाने की कोशिश कर रहा हूं। मेरे डेटासेट में वर्ष (2001-2009), महीना (1-12), लिंग (एम/एफ) और आयु समूह (4 समूह) के लिए एक अवसर (अप्राकृतिक, प्राकृतिक और कुल योग) की संख्या शामिल है।आर में एक पोइसन जीएलएम रिग्रेशन के लापता मूल्यों की भविष्यवाणी/imputing?

मेरी खोज की जा रही अपर्याप्त तकनीकों में से एक है (poisson) प्रतिगमन प्रतिशोध।

अपने डेटा इस तरह दिखता है कहते हैं:

Year Month Gender AgeGroup Unnatural Natural Total 
569 2006  5 Male  15up  278  820 1098 
570 2006  6 Male  15up  273  851 1124 
571 2006  7 Male  15up  304  933 1237 
572 2006  8 Male  15up  296 1064 1360 
573 2006  9 Male  15up  298  899 1197 
574 2006 10 Male  15up  271  819 1090 
575 2006 11 Male  15up  251  764 1015 
576 2006 12 Male  15up  345  792 1137 
577 2007  1 Female  0  NA  NA NA 
578 2007  2 Female  0  NA  NA NA 
579 2007  3 Female  0  NA  NA NA 
580 2007  4 Female  0  NA  NA NA 
581 2007  5 Female  0  NA  NA NA 
... 

एक बुनियादी GLM प्रतिगमन करने के बाद - 96 टिप्पणियों उन्हें लापता होने के कारण हटा दिया गया है।

क्या आर में शायद कोई रास्ता/पैकेज/फ़ंक्शन है जो इस जीएलएम मॉडल के गुणांक का उपयोग कुल के लिए लापता मूल्यों (भविष्यवाणी) (यानी) को कम करने के लिए करेगा (भले ही यह इसे एक अलग डेटाफ्रेम में संग्रहीत करे - मैं Excel को मर्ज करने के लिए उपयोग करूंगा)? मुझे पता है कि मैं विभिन्न पदानुक्रम पंक्तियों की भविष्यवाणी करने के लिए गुणांक का उपयोग कर सकता हूं - लेकिन यह हमेशा के लिए ले जाएगा। उम्मीद है कि एक कदम समारोह/विधि है?

Call: 
glm(formula = Total ~ Year + Month + Gender + AgeGroup, family = poisson) 

Deviance Residuals: 
     Min   1Q  Median   3Q  Max 
-13.85467 -1.13541 -0.04279 1.07133 10.33728 

Coefficients: 
       Estimate Std. Error z value Pr(>|z|)  
(Intercept) 13.3433865 1.7541626 7.607 2.81e-14 *** 
Year   -0.0047630 0.0008750 -5.443 5.23e-08 *** 
Month   0.0134598 0.0006671 20.178 < 2e-16 *** 
GenderMale  0.2265806 0.0046320 48.916 < 2e-16 *** 
AgeGroup01-4 -1.4608048 0.0224708 -65.009 < 2e-16 *** 
AgeGroup05-14 -1.7247276 0.0250743 -68.785 < 2e-16 *** 
AgeGroup15up 2.8062812 0.0100424 279.444 < 2e-16 *** 
--- 
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

(Dispersion parameter for poisson family taken to be 1) 

    Null deviance: 403283.7 on 767 degrees of freedom 
Residual deviance: 4588.5 on 761 degrees of freedom 
    (96 observations deleted due to missingness) 
AIC: 8986.8 

Number of Fisher Scoring iterations: 4 

उत्तर

6

सबसे पहले, यादृच्छिक रूप से गायब होने की धारणा के बारे में बहुत सावधान रहें। आपका उदाहरण लगता है कि गायबता महिला और आयु समूह के साथ सह-होती है। आपको वास्तव में यह जांचना चाहिए कि क्या लापता किसी भी भविष्यवाणियों से संबंधित है (या क्या कोई भविष्यवाणियां गायब हैं)। यदि हां, तो प्रतिक्रियाओं को कम किया जा सकता है।

दूसरा, आप जो फ़ंक्शन खोज रहे हैं वह predict होने की संभावना है, जो एक ग्लैम मॉडल ले सकता है। अधिक मार्गदर्शन के लिए ?predict.glm देखें। आप लापता मूल्यों को हल करने के लिए मॉडल के एक कैस्केड (यानी नेस्टेड मॉडल) फिट करना चाह सकते हैं।

+0

त्वरित प्रतिक्रिया के लिए धन्यवाद! मैं देखूँगा? Predict.glm! लापता होने के बारे में - मूल रूप से पूरे वर्ष 2007 और 2008 में कुछ महीने गायब हैं (पुरुष और महिलाएं और सभी आयु वर्ग दोनों के लिए)। मैंने लापता तंत्र को समझने की कोशिश की - लेकिन अभी भी थोड़ा अस्पष्ट है। मैं देखूंगा कि अनुमानित मूल्य कैसे दिखते हैं और फिर आगे की जांच करते हैं। मुझे शायद मॉडल के कैस्केड (नेस्टेड मॉडल) के बारे में पढ़ने की आवश्यकता होगी। धन्यवाद – OSlOlSO

+0

+1 एनए प्रतिक्रियाओं पर अच्छा बिंदु। –

+0

एनबी: इस घटना में कैस्केड बस मॉडलों का एक अनुक्रम है जो एक अवलोकन गायब है। गणितीय रूप से, कोई भविष्यवाणी करने वाला कोई जीएलएम मॉडल नहीं है, इसलिए आपको उस परिदृश्य के लिए वैकल्पिक मॉडल की आवश्यकता है। आप उन्हें कैसे चुनते हैं आप पर निर्भर है। मॉडलिंग फ़ंक्शन के लिए यह सुरक्षित होना चाहिए कि "मुझे नहीं पता" - जैसा कि बुद्धिमान लोग करते हैं। :) – Iterator

0

mice पैकेज उसी नाम का एक फ़ंक्शन प्रदान करता है जो प्रत्येक अनुपलब्ध मान को अन्य मानों के आधार पर एक रिग्रेशन योजना का उपयोग करके भविष्यवाणी करने की अनुमति देता है। यह भविष्यवाणियों के साथ भी लापता हो सकता है क्योंकि यह एक पुनरावर्तक एमसीएमसी एल्गोरिदम का उपयोग करता है।

मुझे नहीं लगता कि पोइसन रिग्रेशन एक विकल्प है, लेकिन यदि आपकी सभी मायने रखती हैं तो उदाहरण के रूप में सामान्य प्रतिगमन उचित अनुमान प्रदान करना चाहिए।

संबंधित मुद्दे