मुझे आश्चर्य है कि क्या विज्ञान-सीखने के पैकेज के हाल के संस्करणों में संतुलित रैंडम वन (बीआरएफ) का कार्यान्वयन हुआ है। असंतुलित डेटा के मामले में बीआरएफ का उपयोग किया जाता है। यह सामान्य आरएफ के रूप में काम करता है, लेकिन प्रत्येक बूटस्ट्रैपिंग पुनरावृत्ति के लिए, यह अंडरसेप्लिंग द्वारा प्रसार वर्ग को संतुलित करता है। उदाहरण के लिए, प्रत्येक कक्षा को एन 0 = 100, और एन 1 = 30 उदाहरण दिए गए हैं, प्रत्येक यादृच्छिक नमूनाकरण में यह पहली कक्षा से 30 उदाहरण और दूसरे वर्ग से उदाहरणों की एक ही राशि खींचता है, यानी यह एक पेड़ को प्रशिक्षित करता है संतुलित डेटा सेट। अधिक जानकारी के लिए please refer to this paper।विज्ञान-सीखने में संतुलित रैंडम वन (पायथन)
RandomForestClassifier() में 'class_weight =' पैरामीटर है, जिसे 'संतुलित' पर सेट किया जा सकता है, लेकिन मुझे यकीन नहीं है कि यह बूटस्ट्रैप प्रशिक्षण नमूने के डाउनसमल्पिंग से संबंधित है।
क्या आपको कभी समाधान मिला? – oliversm
@oliversm, दुर्भाग्य से नहीं। मैंने इस मुद्दे को छोड़ दिया। शायद हमें scikit सीखने के मंच पर एक मुद्दा खोलना चाहिए और समाधान का प्रस्ताव देना चाहिए। वह महान होगा। –
ब्राइमन द्वारा प्रस्तावित विधि को साइकिट पहले से पेश किए जाने के तरीके को लागू करने के लिए काफी आसान होना चाहिए, हालांकि यह एक शर्म की बात है, हालांकि ऐसा लगता है कि ऐसा अनदेखा किया गया है। – oliversm