के बीच अंतर प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) और मशीन लर्निंग में फ़ीचर चयन के बीच क्या अंतर है? क्या पीसीए फीचर चयन का माध्यम है?पीसीए (प्रिंसिपल कंपोनेंट विश्लेषण) और फ़ीचर चयन
उत्तर
पीसीए यह पता लगाने का एक तरीका है कि डेटा सेट में भिन्नता का वर्णन करने के लिए कौन सी विशेषताएं महत्वपूर्ण हैं। इसका उपयोग अक्सर बड़े डेटा सेट की आयाम को कम करने के लिए किया जाता है ताकि यह मशीन सीखने के लिए अधिक व्यावहारिक हो जाए जहां मूल डेटा मूल रूप से उच्च आयामी (उदा। छवि पहचान) है।
पीसीए की सीमाएं हैं, क्योंकि यह फीचर तत्वों के बीच रैखिक संबंधों पर निर्भर करती है और अक्सर यह स्पष्ट नहीं होता कि आपके शुरू होने से पहले संबंध क्या हैं। चूंकि यह फीचर तत्वों को "छिपाता है" जो डेटा में भिन्नता में थोड़ा योगदान देता है, यह कभी-कभी एक छोटे से लेकिन महत्वपूर्ण अंतर को खत्म कर सकता है जो मशीन लर्निंग मॉडल के प्रदर्शन को प्रभावित करेगा।
आप पीसीए के साथ सुविधा चयन कर सकते हैं।
प्रधानाचार्य घटक विश्लेषण (पीसीए) एक तकनीक है कि
कि "असहसंबद्ध चर प्रमुख घटक कहा जाता है के मूल्यों का एक सेट में संभवतः सहसंबद्ध चर की टिप्पणियों का एक सेट कन्वर्ट करने के लिए एक ओर्थोगोनल परिवर्तन का उपयोग करता है।"
प्रश्न यह है कि पीसीए हमें मूल रूप से जवाब देने में मदद करता है यह है: इन एम पैरामीटर के डेटा सेट के भीतर भिन्नता की एक हस्ताक्षर राशि की व्याख्या करते हैं? पीसीए अनिवार्य रूप से 80-20 नियम लागू करने में मदद करता है: क्या डेटा में बदलाव के 80% या अधिक पैरामीटर का एक छोटा सबसेट (20% कह सकता है) समझा सकता है?
लेकिन यह कुछ कमियों है: यह पैमाने के प्रति संवेदनशील है, और परिमाण के उच्च आदेश के साथ डेटा के लिए अधिक वजन देता है। डाटा सामान्य हमेशा समाधान नहीं हो सकता, जैसा कि यहां बताया:
वहाँ सुविधा चयन करने के लिए अन्य तरीके हैं:
एक विशेषता चयन एल्गोरिथ्म एक खोज के संयोजन के रूप में देखा जा सकता मूल्यांकन माप के साथ-साथ विभिन्न फीचर सबसेट को स्कोर करने वाले नए फीचर सबसेट का प्रस्ताव देने के लिए तकनीक। सबसे सरल एल्गोरिदम खोजने वाली सुविधाओं के प्रत्येक संभावित सबसेट का परीक्षण करना है जो त्रुटि दर को कम करता है। यह अंतरिक्ष की एक विस्तृत खोज है, और फ़ीचर सेटों में से सभी के लिए कम्प्यूटेशनल रूप से अव्यवस्थित है। मूल्यांकन मीट्रिक की पसंद एल्गोरिदम को प्रभावित करती है, और यह मूल्यांकन मेट्रिक्स है जो फीचर चयन की तीन मुख्य श्रेणियों के बीच अंतर एल्गोरिदम: रैपर, फ़िल्टर और एम्बेडेड विधियों।
कुछ क्षेत्रों में, सुविधा निष्कर्षण विशिष्ट लक्ष्यों को सुझाव है कि कर सकते हैं: छवि प्रसंस्करण में, आप ब्लॉब, धार या रिज का पता लगाने के लिए प्रदर्शन कर सकते हैं।
यह पीसीए के माध्यम से फीचर चयन के सवाल को कैसे संबोधित करता है? पीसीए नई विशेषताएं उत्पन्न करता है, यह मूल सुविधा स्थान से सुविधाओं का चयन करने में तुरंत मदद नहीं करता है। आपके उत्तर का दूसरा भाग पर्यवेक्षित समस्याओं में चयन चयन करता है; यह स्पष्ट नहीं है कि ओपी इसकी तलाश में है या नहीं। पीसीए एक स्वाभाविक रूप से अपरिवर्तित तकनीक है, और अनसुलझा फीचर चयन का एकमात्र उल्लेख मैं उससे संबंधित देखता हूं प्रिंसिपल फीचर्स विश्लेषण: http://venom.cs.utsa.edu/dmz/techrep/2007/CS-TR-2007-011 .pdf मैंने पूछा कि आर में इसे http://stackoverflow.com/q/32811659/1840471 पर कैसे कार्यान्वित किया जाए। –
बस @Roger Rowland द्वारा उत्तर में जोड़ने के लिए। पर्यवेक्षित शिक्षा (वर्गीकरण, प्रतिगमन) के संदर्भ में मुझे पीसीए को "फीचर ट्रांसफार्मर" के रूप में एक फीचर चयनकर्ता के रूप में सोचना पसंद है।
पीसीए अक्षों को निकालने पर आधारित है जिस पर डेटा उच्चतम परिवर्तनशीलता दिखाता है। यद्यपि यह नए आधार पर डेटा "फैलता है", और असुरक्षित शिक्षा में बहुत मददगार हो सकता है, इस बात की कोई गारंटी नहीं है कि नई अक्ष एक पर्यवेक्षित समस्या में भेदभावपूर्ण विशेषताओं के अनुरूप हैं।
अधिक सरलता से रखें, इस बात की कोई गारंटी नहीं है कि निर्भर शीर्ष चर (उदाहरण के लिए कक्षा लेबल) की भविष्यवाणी करने पर आपके शीर्ष प्रमुख घटक सबसे अधिक जानकारीपूर्ण होते हैं।
This paper एक उपयोगी स्रोत है। एक और प्रासंगिक क्रॉसवालिडेटेड लिंक here है।
बस ऊपर दिए गए बहुत अच्छे उत्तरों को जोड़ने के लिए। अंतर यह है कि पीसीए अन्य सुविधाओं (रैखिक निर्भरता) के संदर्भ में डेटा की एक विशेषता को व्यक्त करने के तरीके के द्वारा आयाम को कम करने की कोशिश करेगा। इसके बजाय फ़ीचर चयन, लक्ष्य को ध्यान में रखता है। यह लक्ष्य इनपुट की भविष्यवाणी करने के लिए कितने उपयोगी हैं, इस संदर्भ में आपके इनपुट चर रैंक करेगा। यह univariate सुविधा चयन के लिए सच है। मल्टी वेरिएट फीचर चयन कुछ ऐसा भी कर सकता है जिसे पीसीए का एक रूप माना जा सकता है, इस अर्थ में कि यह इनपुट में कुछ विशेषताओं को त्याग देगा। लेकिन इस समानता को बहुत दूर मत लें।
- 1. एसक्यूएल सर्वर 2012 - विश्लेषण सेवाएँ "फ़ीचर चयन" संस्थापक
- 2. एक प्रमुख घटक विश्लेषण (पीसीए) प्लॉट
- 3. पीसीए
- 4. आर डेटा रंग में प्रिंसिपल घटक विश्लेषण
- 5. पीसीए
- 6. पीसीए और केएनएन एल्गोरिदम
- 7. आगे विश्लेषण के लिए पीसीए अक्षों को निकालने
- 8. फ़ीचर चयन एल्गोरिदम का चयन कैसे करें? - सलाह
- 9. फ़ीचर चयन ट्री में फीचर चयन पेड़ में Wix
- 10. पांडा डेटाफ्रेम का उपयोग कर प्रिंसिपल घटक विश्लेषण
- 11. scikit-learn कर्नेल पीसीए ने भिन्नता
- 12. फ़ीचर चयन और बहुभाषी डेटा + मशीन सीखने एल्गोरिथ्म चयन के लिए के चलते किसी सीखने
- 13. रिग्रेशन और पीसीए की दृश्य तुलना
- 14. जावा में पीसीए कार्यान्वयन
- 15. विज्ञान-सीखने पीसीए
- 16. पीसीए परिमाणिकता कमी
- 17. आरएडी स्टूडियो 200 लगातार चयन समस्या: बग या फ़ीचर?
- 18. डेटाटेबल युक्त इनपुटटेक्स्ट: जेएसएफ कस्टम कंपोनेंट
- 19. फ़ीचर Symfony
- 20. फ़ीचर टॉगल
- 21. फ़ीचर जावास्क्रिप्ट
- 22. प्रिंसिपल कॉन्टेक्स्ट
- 23. पीसीए स्पष्ट सुविधाओं के लिए?
- 24. पीसीए पहले या सामान्यीकरण पहले?
- 25. फ्लास्क-प्रिंसिपल, फ्लास्क-लॉगिन, याद_मे और पहचान_लोडेड
- 26. फ्लास्क-ऑथ, प्रिंसिपल और फ्लास्क सुरक्षा
- 27. ट्वीट वर्गीकरणकर्ता फ़ीचर-चुनाव NLTK
- 28. सी # सक्रिय निर्देशिका प्रिंसिपल कॉन्टेक्स्ट/उपयोगकर्ता प्रिंसिपल। आईएसएमम्बरओएफ त्रुटि
- 29. प्रधानाचार्य घटक विश्लेषण
- 30. सीवीएस में फ़ीचर शाखाएं?
मुझे लगता है कि यहां एक महत्वपूर्ण नोट यह है कि पीसीए एक असुरक्षित तकनीक है, जबकि फीचर चयन आम तौर पर (लेकिन हमेशा नहीं) पर्यवेक्षित समस्याओं को संदर्भित करता है। कोई डेटासेट का वर्णन करने के लिए पीसीए का उपयोग कर सकता है - जो कई पीसी पर उच्च पूर्ण लोडिंग के माध्यम से कुछ चर को महत्वपूर्ण साबित कर सकता है - या मॉडल के चलाने के लिए इसे आसान बनाने के लिए पर्यवेक्षित मॉडल पर प्रमुख घटक फेंक सकता है। सामान्य रूप से, पीसीए प्रति फीचर चयन टूल नहीं है। –