2012-07-29 15 views
5

मैं एक रैखिक प्रतिगमन मॉडल को एक साथ रखने की कोशिश कर रहा हूं लेकिन मेरे कुछ विशेषताओं संख्यात्मक नहीं हैं। "कार रंग" जबकि अन्य उदाहरण हैं "इंजन का आकार"। गैर-संख्यात्मक मामलों में मुझे इनपुट सुविधा के रूप में जोड़ने के दौरान इसका प्रतिनिधित्व करने के बारे में अनिश्चितता है। ऐसा करने का एकमात्र तरीका यह है कि मैं प्रत्येक रंग को एक अलग मूल्य के साथ प्रस्तुत करना होगा उदा। (लाल = 1, नीला = 2, हरा = 3 ...) हालांकि यह स्वीकार्य प्रतीत नहीं होता है क्योंकि इसका तात्पर्य है कि हरा लाल से "बेहतर" है।विशेषताओं के रूप में श्रेणियों का उपयोग कर रैखिक प्रतिगमन

क्या कोई मदद कर सकता है ... मैं इसे जावा में कार्यान्वित कर रहा हूं इसलिए मैं इस भाषा में व्यक्त किए गए एल्गोरिदम की सराहना करता हूं या भाषा स्वतंत्र हूं।

+0

अभी तक ... मैंने केवल उन विशेषताओं का उपयोग किया है जो स्पष्ट नहीं थे। – JLove

उत्तर

9

एक तरह से यह करने के लिए डमी एक और तकनीक प्रभाव कोडिंग है कोडिंग का प्रयोग है।

कृपया अधिक जानकारी के लिए इस आलेख का संदर्भ लें, मुझे लगता है कि लेखक ने जो कुछ भी कर सकते हैं उससे बेहतर समझाया है।

Coding Categorical Variables in Regression Models: Dummy and Effect Coding by Resmi Gupta

मुझे लगता है कि इस समाधान अपनी भाषा स्वतंत्र श्रेणी में आता है;)

(कार रंग सांकेतिक शब्दों में बदलना करने के लिए मैं कार रंग केवल 3 मूल्यों ले जा सकते हैं यह सोचते हैं हूँ: लाल, नीले, हरे)

आप इस प्रकार के रूप में यह सांकेतिक शब्दों में बदलना कर सकते हैं:

Color Dummy_Var_One Dummy_Var_Two 

Red  1    0 
Blue  0    1 
Green  0    0 

उपरोक्त तालिका Green में संदर्भ लेव बन जाएगा एल। आपके मामले में यदि आपका रंग n मान लेता है तो आपको n-1 डमी चर शामिल करना होगा।

जावा में एक कार्यान्वयन, Weka फिल्टर NominalToBinary में पाया जा सकता है, हालांकि यह n श्रेणियों के लिए n चर पैदा करेगा।

+0

शानदार प्रतिक्रिया ... चीयर्स – JLove

+0

कृपया मुझे यह जानने की ज़रूरत है कि क्या मैं थ्रे डमी चर का उपयोग करता हूं ..IS_RED, IS_GREEN और IS_BLUE ... क्या इससे अधिक स्वतंत्र परिणाम मिलते हैं या कोई अंतर नहीं होता है। –

संबंधित मुद्दे