2012-09-17 5 views
13

यह एक "सैद्धांतिक" प्रश्न है। मैं कुछ एनएलपी कार्य करने के लिए विज्ञान-सीखने के पैकेज के साथ काम कर रहा हूं। Sklearn दोनों मॉडल चयन पैरामीटर चयन और सेटिंग करने के लिए कई विधियों प्रदान करता है। मैं सोच रहा हूं कि मुझे पहले क्या करना चाहिए।पहले क्या करना है: फ़ीचर चयन या मॉडल पैरामीटर सेट करना?

यदि मैं univariate feature selection का उपयोग करता हूं, तो यह स्पष्ट है कि मुझे पहले सुविधा चयन करना चाहिए और चयनित सुविधाओं के साथ, मैं अनुमानक के पैरामीटर को ट्यून करता हूं।

लेकिन अगर मैं recursive feature elimination का उपयोग करना चाहता हूं तो क्या होगा? क्या मुझे पहले सभी मूल सुविधाओं का उपयोग करके grid search के साथ पैरामीटर सेट करना चाहिए और फिर फीचर चयन करना चाहिए? या शायद मुझे पहले सुविधाओं का चयन करना चाहिए (अनुमानक के डिफ़ॉल्ट पैरामीटर के साथ) और फिर चयनित सुविधाओं के साथ पैरामीटर सेट करें?

किसी भी मदद के लिए अग्रिम धन्यवाद, जो आप मुझे दे सकते हैं।

संपादित

मैं बहुत ज्यादा हो रही है एक ही समस्या here कहा। उस समय तक इसका कोई समाधान नहीं था। क्या किसी को पता है कि यह अभी मौजूद है या नहीं?

उत्तर

16

व्यक्तिगत रूप से मुझे लगता है कि अधिकांश मामलों में आरएफई अधिक है और बहुत महंगा है। यदि आप रैखिक मॉडल पर फीचर चयन करना चाहते हैं, तो अनियमित फीचर चयन का उपयोग करें, उदाहरण के लिए ची 2 परीक्षण या एल 1 या एल 1 + एल 2 नियमितीकृत मॉडलों के साथ ग्रिड खोज नियमितकरण पैरामीटर (आमतौर परया alpha स्केलेर्न मॉडल में) के साथ।

नमूने का एक बहुत आप RandomForestClassifier, ExtraTreesClassifier या GBRT मॉडल की कोशिश करनी चाहिए और ग्रिड मानकों चयन की खोज (संभवतः OOB स्कोर अनुमानों का प्रयोग करके) के साथ अत्यधिक गैर रेखीय समस्याओं के लिए और compute_importances स्विच का उपयोग महत्व से सुविधाओं की एक रैंकिंग को खोजने के लिए और सुविधा चयन के लिए इसका इस्तेमाल करें।

कुछ नमूनों के साथ अत्यधिक गैर-रैखिक समस्याओं के लिए मुझे नहीं लगता कि कोई समाधान है। आपको न्यूरोसाइंसेस करना होगा :)

+0

सुझाव के लिए धन्यवाद। चूंकि मैं सिर्फ LogistRegression और SVC का उपयोग करने की योजना बना रहा हूं, मुझे लगता है कि chi2 और/या L1 पर्याप्त होगा। – feralvam

संबंधित मुद्दे