2013-04-27 9 views
11

के बीच अंतर प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) और मशीन लर्निंग में फ़ीचर चयन के बीच क्या अंतर है? क्या पीसीए फीचर चयन का माध्यम है?पीसीए (प्रिंसिपल कंपोनेंट विश्लेषण) और फ़ीचर चयन

उत्तर

23

पीसीए यह पता लगाने का एक तरीका है कि डेटा सेट में भिन्नता का वर्णन करने के लिए कौन सी विशेषताएं महत्वपूर्ण हैं। इसका उपयोग अक्सर बड़े डेटा सेट की आयाम को कम करने के लिए किया जाता है ताकि यह मशीन सीखने के लिए अधिक व्यावहारिक हो जाए जहां मूल डेटा मूल रूप से उच्च आयामी (उदा। छवि पहचान) है।

पीसीए की सीमाएं हैं, क्योंकि यह फीचर तत्वों के बीच रैखिक संबंधों पर निर्भर करती है और अक्सर यह स्पष्ट नहीं होता कि आपके शुरू होने से पहले संबंध क्या हैं। चूंकि यह फीचर तत्वों को "छिपाता है" जो डेटा में भिन्नता में थोड़ा योगदान देता है, यह कभी-कभी एक छोटे से लेकिन महत्वपूर्ण अंतर को खत्म कर सकता है जो मशीन लर्निंग मॉडल के प्रदर्शन को प्रभावित करेगा।

+1

मुझे लगता है कि यहां एक महत्वपूर्ण नोट यह है कि पीसीए एक असुरक्षित तकनीक है, जबकि फीचर चयन आम तौर पर (लेकिन हमेशा नहीं) पर्यवेक्षित समस्याओं को संदर्भित करता है। कोई डेटासेट का वर्णन करने के लिए पीसीए का उपयोग कर सकता है - जो कई पीसी पर उच्च पूर्ण लोडिंग के माध्यम से कुछ चर को महत्वपूर्ण साबित कर सकता है - या मॉडल के चलाने के लिए इसे आसान बनाने के लिए पर्यवेक्षित मॉडल पर प्रमुख घटक फेंक सकता है। सामान्य रूप से, पीसीए प्रति फीचर चयन टूल नहीं है। –

5

आप पीसीए के साथ सुविधा चयन कर सकते हैं।

प्रधानाचार्य घटक विश्लेषण (पीसीए) एक तकनीक है कि

कि "असहसंबद्ध चर प्रमुख घटक कहा जाता है के मूल्यों का एक सेट में संभवतः सहसंबद्ध चर की टिप्पणियों का एक सेट कन्वर्ट करने के लिए एक ओर्थोगोनल परिवर्तन का उपयोग करता है।"

प्रश्न यह है कि पीसीए हमें मूल रूप से जवाब देने में मदद करता है यह है: इन एम पैरामीटर के डेटा सेट के भीतर भिन्नता की एक हस्ताक्षर राशि की व्याख्या करते हैं? पीसीए अनिवार्य रूप से 80-20 नियम लागू करने में मदद करता है: क्या डेटा में बदलाव के 80% या अधिक पैरामीटर का एक छोटा सबसेट (20% कह सकता है) समझा सकता है?

(see here)

लेकिन यह कुछ कमियों है: यह पैमाने के प्रति संवेदनशील है, और परिमाण के उच्च आदेश के साथ डेटा के लिए अधिक वजन देता है। डाटा सामान्य हमेशा समाधान नहीं हो सकता, जैसा कि यहां बताया:

http://www.simafore.com/blog/bid/105347/Feature-selection-with-mutual-information-Part-2-PCA-disadvantages

वहाँ सुविधा चयन करने के लिए अन्य तरीके हैं:

एक विशेषता चयन एल्गोरिथ्म एक खोज के संयोजन के रूप में देखा जा सकता मूल्यांकन माप के साथ-साथ विभिन्न फीचर सबसेट को स्कोर करने वाले नए फीचर सबसेट का प्रस्ताव देने के लिए तकनीक। सबसे सरल एल्गोरिदम खोजने वाली सुविधाओं के प्रत्येक संभावित सबसेट का परीक्षण करना है जो त्रुटि दर को कम करता है। यह अंतरिक्ष की एक विस्तृत खोज है, और फ़ीचर सेटों में से सभी के लिए कम्प्यूटेशनल रूप से अव्यवस्थित है। मूल्यांकन मीट्रिक की पसंद एल्गोरिदम को प्रभावित करती है, और यह मूल्यांकन मेट्रिक्स है जो फीचर चयन की तीन मुख्य श्रेणियों के बीच अंतर एल्गोरिदम: रैपर, फ़िल्टर और एम्बेडेड विधियों।

(see here)

कुछ क्षेत्रों में, सुविधा निष्कर्षण विशिष्ट लक्ष्यों को सुझाव है कि कर सकते हैं: छवि प्रसंस्करण में, आप ब्लॉब, धार या रिज का पता लगाने के लिए प्रदर्शन कर सकते हैं।

+0

यह पीसीए के माध्यम से फीचर चयन के सवाल को कैसे संबोधित करता है? पीसीए नई विशेषताएं उत्पन्न करता है, यह मूल सुविधा स्थान से सुविधाओं का चयन करने में तुरंत मदद नहीं करता है। आपके उत्तर का दूसरा भाग पर्यवेक्षित समस्याओं में चयन चयन करता है; यह स्पष्ट नहीं है कि ओपी इसकी तलाश में है या नहीं। पीसीए एक स्वाभाविक रूप से अपरिवर्तित तकनीक है, और अनसुलझा फीचर चयन का एकमात्र उल्लेख मैं उससे संबंधित देखता हूं प्रिंसिपल फीचर्स विश्लेषण: http://venom.cs.utsa.edu/dmz/techrep/2007/CS-TR-2007-011 .pdf मैंने पूछा कि आर में इसे http://stackoverflow.com/q/32811659/1840471 पर कैसे कार्यान्वित किया जाए। –

1

बस @Roger Rowland द्वारा उत्तर में जोड़ने के लिए। पर्यवेक्षित शिक्षा (वर्गीकरण, प्रतिगमन) के संदर्भ में मुझे पीसीए को "फीचर ट्रांसफार्मर" के रूप में एक फीचर चयनकर्ता के रूप में सोचना पसंद है।

पीसीए अक्षों को निकालने पर आधारित है जिस पर डेटा उच्चतम परिवर्तनशीलता दिखाता है। यद्यपि यह नए आधार पर डेटा "फैलता है", और असुरक्षित शिक्षा में बहुत मददगार हो सकता है, इस बात की कोई गारंटी नहीं है कि नई अक्ष एक पर्यवेक्षित समस्या में भेदभावपूर्ण विशेषताओं के अनुरूप हैं।

अधिक सरलता से रखें, इस बात की कोई गारंटी नहीं है कि निर्भर शीर्ष चर (उदाहरण के लिए कक्षा लेबल) की भविष्यवाणी करने पर आपके शीर्ष प्रमुख घटक सबसे अधिक जानकारीपूर्ण होते हैं।

This paper एक उपयोगी स्रोत है। एक और प्रासंगिक क्रॉसवालिडेटेड लिंक here है।

2

बस ऊपर दिए गए बहुत अच्छे उत्तरों को जोड़ने के लिए। अंतर यह है कि पीसीए अन्य सुविधाओं (रैखिक निर्भरता) के संदर्भ में डेटा की एक विशेषता को व्यक्त करने के तरीके के द्वारा आयाम को कम करने की कोशिश करेगा। इसके बजाय फ़ीचर चयन, लक्ष्य को ध्यान में रखता है। यह लक्ष्य इनपुट की भविष्यवाणी करने के लिए कितने उपयोगी हैं, इस संदर्भ में आपके इनपुट चर रैंक करेगा। यह univariate सुविधा चयन के लिए सच है। मल्टी वेरिएट फीचर चयन कुछ ऐसा भी कर सकता है जिसे पीसीए का एक रूप माना जा सकता है, इस अर्थ में कि यह इनपुट में कुछ विशेषताओं को त्याग देगा। लेकिन इस समानता को बहुत दूर मत लें।

संबंधित मुद्दे