मैं बहुत यकीन है कि यह पहले कहा गया है, लेकिन मैं एक जवाबsklearn रसद प्रतिगमन - महत्वपूर्ण सुविधाओं
रसद प्रतिगमन अजगर पर sklearn का उपयोग कर चल रहा है, मैं करने के लिए मेरी डाटासेट बदल पा रहा हूँ खोजने में असमर्थ हूँ ट्रांसफॉर्म विधि
classf = linear_model.LogisticRegression()
func = classf.fit(Xtrain, ytrain)
reduced_train = func.transform(Xtrain)
का उपयोग करके इसकी सबसे महत्वपूर्ण विशेषताएं यह बता सकती हैं कि कौन सी विशेषताओं को सबसे महत्वपूर्ण बताया गया है? अधिक आम तौर पर मैं डेटासेट में प्रत्येक सुविधा के पी-वैल्यू की गणना कैसे कर सकता हूं?
यह मेरी समझ है कि coefs_ आकार सुविधा के महत्व के लिए एक उपाय नहीं है। क्या आप elobarate मैं संख्याओं को कैसे देखना चाहिए? धन्यवाद – mel
@mel: स्रोत कोड को देखते हुए, मैं देख सकता हूं कि 'LogisticRegression.transform' वास्तव में सुविधा महत्व का मूल्यांकन करने के लिए' coef_' का उपयोग कर रहा है। यह सिर्फ उच्चतम मूल्य वाले गुणांक को अधिक महत्वपूर्ण मानता है। प्रासंगिक कोड [यहां] है (https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/feature_selection/from_model.py)। यदि आप "महत्व" की कुछ अन्य परिभाषा चाहते हैं तो आपको यह बताने की आवश्यकता होगी कि वह क्या है। – BrenBarn
वास्तव में, 'np.abs (coef_)' विशेषता महत्व को मापने का एक भयानक प्रयास है - एक ऐसी अवधारणा जो वास्तव में एक बहुविकल्पीय सेटिंग में अधिक समझ में नहीं आती है (यानी वेरिएबल्स भविष्यवाणी करने के लिए संयुक्त रूप से कार्य करते हैं) जब तक आपका मॉडल नहीं करता परिवर्तनीय चयन, उदाहरण के लिए sparsity के माध्यम से। यदि मॉडल दुर्लभता को बढ़ावा देता है, तो आप उन चरों को त्याग सकते हैं जिनके वजन शून्य हैं, लेकिन यह तकनीकी रूप से आप वास्तव में कर सकते हैं यदि आप कठोर होना चाहते हैं।कुछ अन्य मॉडल 'feature_importance' का पर्दाफाश करते हैं, और मॉडल के आधार पर यह एक कम या कम अविवाहित उपाय है कि यह सुविधा कितनी अच्छी तरह से बताती है कि – eickenberg