संक्षेप में, हाँ - यह डमी चर को मानकीकृत करेगा, लेकिन ऐसा करने का एक कारण है। glmnet
फ़ंक्शन X
पैरामीटर के लिए इनपुट के रूप में एक मैट्रिक्स लेता है, डेटा फ्रेम नहीं, इसलिए यह factor
कॉलम के लिए भेद नहीं करता है, यदि पैरामीटर data.frame
था। आप आर समारोह पर एक नज़र, glmnet कोड standardize
रूप
isd = as.integer(standardize)
कौन सा एक 0 या 1 पूर्णांक के लिए आर बूलियन धर्मान्तरित आंतरिक FORTRAN कार्य (Elnet, lognet, एट में से किसी को खिलाने के लिए पैरामीटर आंतरिक रूप से लेते हैं ।। - अल)
आप FORTRAN कोड (निश्चित चौड़ाई का परीक्षण करके भी आगे जाने हैं पुराने स्कूल), तो आपको निम्न ब्लॉक देखेंगे:
subroutine standard1 (no,ni,x,y,w,isd,intr,ju,xm,xs,ym,ys,xv,jerr) 989
real x(no,ni),y(no),w(no),xm(ni),xs(ni),xv(ni) 989
integer ju(ni) 990
real, dimension (:), allocatable :: v
allocate(v(1:no),stat=jerr) 993
if(jerr.ne.0) return 994
w=w/sum(w) 994
v=sqrt(w) 995
if(intr .ne. 0)goto 10651 995
ym=0.0 995
y=v*y 996
ys=sqrt(dot_product(y,y)-dot_product(v,y)**2) 996
y=y/ys 997
10660 do 10661 j=1,ni 997
if(ju(j).eq.0)goto 10661 997
xm(j)=0.0 997
x(:,j)=v*x(:,j) 998
xv(j)=dot_product(x(:,j),x(:,j)) 999
if(isd .eq. 0)goto 10681 999
xbq=dot_product(v,x(:,j))**2 999
vc=xv(j)-xbq 1000
xs(j)=sqrt(vc) 1000
x(:,j)=x(:,j)/xs(j) 1000
xv(j)=1.0+xbq/vc 1001
goto 10691 1002
1000 चिह्नित लाइनों पर एक नजर डालें - यह मूल रूप से टी को मानकीकरण फॉर्मूला लागू कर रहा है वह X
मैट्रिक्स।
अब सांख्यिकीय रूप से बोलते हुए, कोई आमतौर पर अनुमानित प्रतिद्वंद्वियों की व्याख्या को बनाए रखने के लिए विशिष्ट चर को मानकीकृत नहीं करता है। हालांकि, जैसा कि तिब्शीरानी here द्वारा इंगित किया गया है, "लासो विधि को प्रतिद्वंद्वियों के प्रारंभिक मानकीकरण की आवश्यकता होती है, ताकि दंडकरण योजना सभी प्रतिद्वंद्वियों के लिए उचित हो। वर्गीकृत regressors के लिए, एक डमी चर के साथ regressor कोड और फिर डमी चर का मानकीकरण" - इसलिए जब यह निरंतर और स्पष्ट चर के बीच मनमाने ढंग से स्केलिंग का कारण बनता है, यह बराबर दंड के उपचार के लिए किया जाता है।
आप वह अतिरिक्त काम क्यों कर रहे हैं? –
@DWin मुझे एक और तरीका नहीं दिख रहा है। यदि ग्लैमनेट भेदभाव नहीं करता है, तो मुझे इसकी आवश्यकता है। जैसा कि मैंने अभी नीचे पोस्ट किया है, अगर हम मानकीकृत डमी वैरिएबल पर एक गुणांक की व्याख्या नहीं कर सकते हैं, तो मुझे मानकीकरण से पहले डमी को गैर-डमी से अलग करने की आवश्यकता है। –