मेरे पास एक रिग्रेशन मॉडल है जिसमें निर्भर चर निरंतर है लेकिन स्वतंत्र चर के नब्बे प्रतिशत स्पष्ट हैं (दोनों आदेशित और अनियंत्रित) और लगभग तीस प्रतिशत रिकॉर्ड में मूल्य गुम हैं (मामलों को और भी खराब बनाते हैं, वे किसी भी पैटर्न के बिना यादृच्छिक रूप से गायब हैं, यानी, डेटा चावल का चालीस प्रतिशत प्रतिशत कम से कम एक गुम मूल्य)। मॉडल के विनिर्देश को चुनने के लिए कोई प्राथमिक सिद्धांत नहीं है, इसलिए महत्वपूर्ण कार्यों में से एक प्रतिगमन चलाने से पहले आयाम में कमी है। जबकि मैं निरंतर चर के लिए आयाम में कमी के लिए कई तरीकों से अवगत हूं, मुझे स्पष्ट डेटा के लिए एक समान सांख्यिकीय साहित्य से अवगत नहीं है (सिवाय इसके कि, पत्राचार विश्लेषण के एक हिस्से के रूप में, जो मूल रूप से आवृत्ति तालिका पर मुख्य घटक विश्लेषण का एक भिन्नता है)। मुझे यह भी कहना है कि डेटासेट 200 चर के साथ मध्यम आकार 500000 अवलोकनों का है। मेरे पास दो प्रश्न हैं।लापता मूल्यों के साथ विशिष्ट डेटा में आयाम में कमी
- क्या मजबूत प्रतिबाधा के साथ स्पष्ट डेटा के आयाम में कमी के लिए वहां एक अच्छा सांख्यिकीय संदर्भ है (मुझे लगता है कि पहला मुद्दा प्रतिबाधा है और फिर आयाम में कमी है)?
- यह उपर्युक्त समस्या के कार्यान्वयन से जुड़ा हुआ है। मैंने पहले बड़े पैमाने पर आर का उपयोग किया है और लगातार चर के लिए ट्रांसकन और अपूर्ण कार्य का उपयोग करने के लिए प्रवृत्त होता है और स्पष्ट मूल्यों को लागू करने के लिए पेड़ विधि की विविधता का उपयोग करता है। मेरे पास पाइथन का कामकाजी ज्ञान है इसलिए यदि इस उद्देश्य के लिए कुछ अच्छा है तो मैं इसका उपयोग करूंगा। पायथन या आर में कोई कार्यान्वयन पॉइंटर्स बहुत मददगार होंगे। धन्यवाद।
इंस्टॉल करना धन्यवाद। यह वास्तव में सहायक है। – user227290
हाय, प्रस्तुति का लिंक अब नहीं मिला है। –