में विशेषताओं के रूप में स्पष्ट डेटा का उपयोग करके मैं समझने की कोशिश कर रहा हूं कि sklearn.linear_model
के LogisticRegression
में विशिष्ट डेटा का उपयोग कैसे करें।स्किलीन लॉजिस्टिक्स रीजनियन
मैं समझता हूं कि मुझे इसे एन्कोड करने की आवश्यकता है।
मैं क्या समझ में नहीं आता है, तो यह एक स्पष्ट सुविधा के रूप में संसाधित कैसे उपस्कर प्रतिगमन को इनकोडिंग सुविधा पारित करने के लिए, और पूर्णांक मूल्य समझ में आ गया है जब एक मानक मात्रात्मक सुविधा के रूप में एन्कोडिंग की व्याख्या नहीं है।
(कम महत्वपूर्ण) क्या कोई
preprocessing.LabelEncoder()
,DictVectorizer.vocabulary
का उपयोग करने के बीच अंतर को समझा सकता है या केवल सरल डेटा के साथ स्पष्ट डेटा को एन्कोड कर सकता है? Alex A.'s comment here विषय पर छूता है लेकिन बहुत गहराई से नहीं।
खासकर पहले के साथ!
धन्यवाद के लिए reply.The रूपांतरण ही समस्या (मुझे लगता है कि) की कम है, मेरी मुख्य चिंता है कि रसद reg, एक मानक संख्यात्मक मूल्य के रूप में संख्यात्मक मानों पर विचार करेंगे तो अगर बिल्ली 1 के रूप में इनकोडिंग है और कुत्ते के रूप में 2, यह माना जाएगा कि 'कुत्ते' के साथ अवलोकन में उस संपत्ति का 'अधिक' है, जबकि हम जानते हैं कि असाइन किए गए मान व्यर्थ हैं। – Optimesh
@ ओप्टिम्स, आपका मतलब "एन्कोडेड" से क्या है? यदि आप लक्ष्य चर के बारे में बात कर रहे हैं - लक्ष्यों [1,2,3] में कुछ भी गलत नहीं है, तो लॉजिस्टिक रेजीशन केवल 3 (इस विशेष मामले में) क्लासिफायरों का निर्माण करेगा और उन्हें OneVsRest योजना में जोड़ देगा। यदि आप सुविधाओं के बारे में बात कर रहे हैं - OneHotEncoder बाइनरी प्रारूप में प्रत्येक विशिष्ट विशेषता को एन्कोड करेगा, यानी यह स्पष्ट सुविधा के लिए प्रत्येक संभावित मान के बजाय नई बाइनरी सुविधा बनाएगा, यानी परिणामी डेटासेट मूल्यों के लिए बाइनरी विशेषताओं (कॉलम) को अलग करेगा कुत्ते = 1, कुत्ता = 2, कुत्ता = 3, बिल्ली = 1, आदि आधिकारिक दस्तावेज में उदाहरण देखें। –