लापता मूल्यों के साथ विशिष्ट डेटा में आयाम में कमी

मेरे पास एक रिग्रेशन मॉडल है जिसमें निर्भर चर निरंतर है लेकिन स्वतंत्र चर के नब्बे प्रतिशत स्पष्ट हैं (दोनों आदेशित और अनियंत्रित) और लगभग तीस प्रतिशत रिकॉर्ड में मूल्य गुम हैं (मामलों को और भी खराब बनाते हैं, वे किसी भी पैटर्न के बिना यादृच्छिक रूप से गायब हैं, यानी, डेटा चावल का चालीस प्रतिशत प्रतिशत कम से कम एक गुम मूल्य)। मॉडल के विनिर्देश को चुनने के लिए कोई प्राथमिक सिद्धांत नहीं है, इसलिए महत्वपूर्ण कार्यों में से एक प्रतिगमन चलाने से पहले आयाम में कमी है। जबकि मैं निरंतर चर के लिए आयाम में कमी के लिए कई तरीकों से अवगत हूं, मुझे स्पष्ट डेटा के लिए एक समान सांख्यिकीय साहित्य से अवगत नहीं है (सिवाय इसके कि, पत्राचार विश्लेषण के एक हिस्से के रूप में, जो मूल रूप से आवृत्ति तालिका पर मुख्य घटक विश्लेषण का एक भिन्नता है)। मुझे यह भी कहना है कि डेटासेट 200 चर के साथ मध्यम आकार 500000 अवलोकनों का है। मेरे पास दो प्रश्न हैं।लापता मूल्यों के साथ विशिष्ट डेटा में आयाम में कमी

क्या मजबूत प्रतिबाधा के साथ स्पष्ट डेटा के आयाम में कमी के लिए वहां एक अच्छा सांख्यिकीय संदर्भ है (मुझे लगता है कि पहला मुद्दा प्रतिबाधा है और फिर आयाम में कमी है)?
यह उपर्युक्त समस्या के कार्यान्वयन से जुड़ा हुआ है। मैंने पहले बड़े पैमाने पर आर का उपयोग किया है और लगातार चर के लिए ट्रांसकन और अपूर्ण कार्य का उपयोग करने के लिए प्रवृत्त होता है और स्पष्ट मूल्यों को लागू करने के लिए पेड़ विधि की विविधता का उपयोग करता है। मेरे पास पाइथन का कामकाजी ज्ञान है इसलिए यदि इस उद्देश्य के लिए कुछ अच्छा है तो मैं इसका उपयोग करूंगा। पायथन या आर में कोई कार्यान्वयन पॉइंटर्स बहुत मददगार होंगे। धन्यवाद।

स्रोत

2010-05-14 user227290

स्पष्ट डेटा के प्रतिबिंब के संबंध में, मैं mice पैकेज की जांच करने का सुझाव दूंगा। इसके अलावा presentation पर एक नज़र डालें जो बताता है कि यह बहुविकल्पीय विशिष्ट डेटा को कैसे लागू करता है। अधूरे बहुविकल्पीय डेटा के बहुमुखी प्रतिबाधा के लिए एक और पैकेज Amelia है। अमेलिया में सामान्य और नाममात्र चर से निपटने के लिए कुछ सीमित क्षमता शामिल है।

स्पष्ट डेटा के लिए आयामी कमी (यानी एकरूप समूह में चर व्यवस्थित करने का एक तरीका) के रूप में, मैं Multiple Correspondence Analysis की विधि का सुझाव दूंगा जो आपको अक्षरों की एकरूपता को अधिकतम करने वाले गुप्त चर देगा। इसी प्रकार प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) और फैक्टर विश्लेषण में क्या किया जाता है, एमसीए समाधान को घटक सादगी बढ़ाने के लिए भी घुमाया जा सकता है। घूर्णन के पीछे विचार चर के घटकों को ढूंढना है जो घूर्णन घटकों के साथ अधिक स्पष्ट रूप से मेल खाते हैं। इसका तात्पर्य यह है कि घटकों की सादगी को अधिकतम करने से कारक व्याख्या और परिवर्तनीय क्लस्टरिंग में मदद मिल सकती है। आर एमसीए विधियों में पैकेज ade4, MASS, FactoMineR और ca (कम से कम) में शामिल हैं। FactoMineR के लिए, आप इसे ग्राफ़िकल इंटरफ़ेस के माध्यम से उपयोग कर सकते हैं यदि आप आरसीएमडीआर पैकेज द्वारा पहले से प्रस्तावित किए गए लोगों के लिए अतिरिक्त मेनू के रूप में जोड़ते हैं, RcmdrPlugin.FactoMineR

स्रोत

2010-05-15 13:06:45

इंस्टॉल करना धन्यवाद। यह वास्तव में सहायक है। – user227290

हाय, प्रस्तुति का लिंक अब नहीं मिला है। –

लापता मूल्यों के साथ विशिष्ट डेटा में आयाम में कमी

उत्तर

संबंधित मुद्दे