2012-01-22 19 views
31

मैं रिग्रेशन कार्य कर रहा हूं - क्या मुझे randomForest (R पैकेज) के लिए डेटा को सामान्य (या स्केल) करने की आवश्यकता है? और क्या यह लक्ष्य मूल्यों को मापने के लिए भी सक्षम है? और यदि - मैं कैरेट पैकेज से स्केल फ़ंक्शन का उपयोग करना चाहता हूं, लेकिन मुझे नहीं मिला कि डेटा वापस कैसे प्राप्त करें (descale, denormalize)। क्या आप किसी अन्य फ़ंक्शन (किसी भी पैकेज में) के बारे में नहीं जानते हैं जो सामान्यीकरण/denormalization के साथ सहायक है? धन्यवाद, मिलानक्या मुझे randomForest (R पैकेज) के लिए डेटा को सामान्य (या स्केल) करने की आवश्यकता है?

+6

'स्केल' फ़ंक्शन 'देखभाल' से संबंधित नहीं है। यह "आधार" आर पैकेज का हिस्सा है। एक 'unscale' फ़ंक्शन है जो परिवर्तन को उलट देगा। –

उत्तर

1

मैं या तो मदद पृष्ठ या विनेट कि पता चलता है स्केलिंग randomForest में एक प्रतिगमन चर के लिए आवश्यक है में किसी भी सुझाव नहीं दिख रहा। This example at Stats Exchange या तो स्केलिंग का उपयोग नहीं करता है।

मेरी टिप्पणी की प्रतिलिपि: scale फ़ंक्शन पीकेजी से संबंधित नहीं है: देखभाल। यह "आधार" आर पैकेज का हिस्सा है। संकुल grt और DMwR में unscale फ़ंक्शन है जो परिवर्तन को उलट देगा, या आप स्केल विशेषता द्वारा गुणा कर सकते हैं और फिर केंद्र विशेषता मान जोड़ सकते हैं।

आपकी सामान्य धारणा "सामान्यीकरण" करने की आवश्यकता के बारे में आपकी अवधारणा को गंभीर परीक्षा की आवश्यकता हो सकती है। गैर-सामान्यता का परीक्षण केवल प्रतिक्रियाओं के बाद आवश्यक होता है और फिट पद्धति की भलाई में सामान्यता की कोई धारणा नहीं होने पर इसकी आवश्यकता नहीं हो सकती है। तो: तुम क्यों पूछ रहे हो? एसओ और आंकड़ों में खोज। एक्सचेंज उपयोगी साबित हो सकता है: citation #1; citation #2; citation #3

boxcox फ़ंक्शन एक सामान्य रूप से उपयोग किया जाने वाला ट्रैनफॉर्मेशन होता है जब किसी को किसी भी वितरण को "चाहिए" होना चाहिए और जब आपको वास्तव में एक ट्रान्सफॉर्मेशन करने की आवश्यकता होती है। परिवर्तनों को लागू करने में कई समस्याएं हैं, इसलिए तथ्य यह है कि आपको सवाल पूछने की आवश्यकता है कि आपको आगे परामर्श या आत्म-अध्ययन की आवश्यकता हो सकती है।

+0

मैं अपने प्रश्न में सामान्यीकरण को डेटा के सरल रैखिक परिवर्तन के रूप में समझता हूं अंतराल 0-1। यह किया जाना चाहिए उदा। तंत्रिका नेटवर्क का उपयोग करते समय। तो जब मैंने पूछा कि हांग ओई ने जवाब दिया तो मुझे क्या चाहिए। मुझे आपके द्वारा सुझाए गए फ़ंक्शन असुरक्षित नहीं मिला। लेकिन आपके प्रयास के लिए धन्यवाद। – gutompf

+0

आपके दूसरे प्रश्न का उत्तर देने के लिए उद्धरण जोड़े गए। –

+0

मैं क्षमा चाहता हूं - मैंने अनदेखा किया है कि असुरक्षित पैकेज grt और DMwR – gutompf

31

नहीं, यादृच्छिक जंगलों के लिए स्केलिंग आवश्यक नहीं है।

  • आरएफ की प्रकृति ऐसी है कि अभिसरण और संख्यात्मक परिशुद्धता मुद्दों, जो कभी कभी रसद और रेखीय प्रतीपगमन, साथ ही तंत्रिका नेटवर्क में इस्तेमाल किया एल्गोरिदम ट्रिप सकता है, इसलिए महत्वपूर्ण नहीं हैं। इस वजह से, आपको वैरिएबल को एक सामान्य पैमाने पर बदलने की आवश्यकता नहीं है जैसे आप एनएन के साथ हो सकते हैं।

  • आपको एक रिग्रेशन गुणांक का कोई एनालॉग नहीं मिलता है, जो प्रत्येक predictor चर और प्रतिक्रिया के बीच संबंधों को मापता है। इस वजह से, आपको इस तरह के गुणांक की व्याख्या करने के तरीके पर विचार करने की आवश्यकता नहीं है जो परिवर्तनीय माप स्केल से प्रभावित कुछ है।

+0

आपको बहुत धन्यवाद – gutompf

+8

न केवल स्केलिंग आवश्यक है, यह nonlinear प्रकृति को सुचारू कर सकते हैं आदर्श। यदि आपके पास पी-आयामी अंतरिक्ष में जटिल nonlinear संबंध हैं और आपने अपना डेटा बदल दिया है, जब आप इन nonlinearities को बैक-ट्रांसफॉर्म करते हैं तो अनुमान में प्रतिबिंबित नहीं होते हैं। –

+2

@JeffreyEvans कृपया अपनी महान टिप्पणियों को गठबंधन करें और उन्हें एक उत्तर के रूप में पोस्ट करें। अन्यथा यह सिर्फ हर किसी के रडार के नीचे फिसल जाएगा। आप कह रहे हैं ** "नहीं, न केवल यह आवश्यक है, निम्नलिखित कारणों से यह हानिकारक है ए) बी) सी) ..." ** – smci

1

आप डाटासेट बातचीत जोड़ने जा रहा है, तो कर रहे हैं - कि, नया वेरिएबल अन्य चरों का समारोह (आम तौर पर साधारण गुणा) किया जा रहा है, और आपको लगता है क्या कि नए चर के लिए खड़ा है न (नहीं कर सकते यह interprete), तो आपको स्केल किए गए चर का उपयोग करके इस चर की गणना करनी चाहिए।

+4

रैंडम वन एक nonlinear मॉडल है और नोड विभाजित सांख्यिकीय खातों की प्रकृति उच्च आयामी बातचीत के लिए। इस प्रकार, यह अनावश्यक और इंटरैक्शन चर परिभाषित करने के प्रयास के लिए काफी अवांछनीय है। –

0

मान लीजिए, निम्नलिखित उदाहरण में क्या होगा? कल्पना कीजिए, आपके पास 20 पूर्वानुमानित विशेषताएं हैं, उनमें से 18 [0; 10] रेंज में हैं और अन्य 2 [0; 1,000,000] रेंज में हैं (वास्तविक जीवन उदाहरण से ली गई हैं)। प्रश्न 1: रैंडम वन असाइनमेंट किस फीचर आयात करेगा। प्रश्न 2: 2 बड़ी रेंज सुविधाओं को स्केल करने के बाद फीचर महत्व के साथ क्या होगा?

स्केलिंग महत्वपूर्ण है। यह है कि रैंडम वन स्केलिंग के बाद अन्य एल्गोरिदम कम संवेदनशील है और "मोटे तौर पर" -स्केल्ड सुविधाओं के साथ काम कर सकता है।

संबंधित मुद्दे