2013-04-19 10 views
5

मैं यह जानने की कोशिश कर रहा हूं कि सी 4.5 एल्गोरिदम संख्यात्मक विशेषताओं के लिए थ्रेसहोल्ड मान निर्धारित करता है। मैंने शोध किया है और समझ नहीं पा रहा है, ज्यादातर स्थानों में मुझे यह जानकारी मिली है:क्विनान के सी 4.5 एल्गोरिदम में संख्यात्मक विशेषताओं के लिए थ्रेसहोल्ड मान की गणना कैसे करें?

प्रशिक्षण नमूने पहले विशेषता वाले मान के मानों पर क्रमबद्ध किए गए हैं। इन मानों की केवल एक सीमित संख्या है, इसलिए हम उन्हें क्रमबद्ध क्रम में {v1, v2, ..., vm} के रूप में इंगित करते हैं। वी और वीआई + 1 के बीच झूठ बोलने वाला कोई भी थ्रेसहोल्ड वैल्यू उन मामलों में विभाजित करने का समान प्रभाव रखेगा जिनके गुण वाई के मूल्य {v1, v2, ..., vi} में हैं और जिनके मूल्य {vi + 1 में है, vi + 2, ..., vm}। इस प्रकार वाई पर केवल एम -1 संभावित विभाजन हैं, जिनमें से सभी को इष्टतम विभाजन प्राप्त करने के लिए व्यवस्थित रूप से जांच की जानी चाहिए।

प्रत्येक अंतराल के मध्य बिंदु का चयन करना सामान्य है: (vi + vi + 1)/2 प्रतिनिधि दहलीज के रूप में। सी 4.5 मिडपॉइंट के बजाए, प्रत्येक अंतराल {vi, vi + 1} के लिए दहलीज के रूप में एक छोटा मूल्य vi चुनता है।

मैं खेलने का एक उदाहरण पढ़ रहा हूँ/मुझे यह प्ले (value table) और समझ में नहीं आता है जब राज्य धूप निकली हुई है कि कैसे आप विशेषता नमी के लिए नंबर 75 (tree generated) मिलता है क्योंकि के लिए नमी के मूल्यों धूप राज्य {70,85,90,95} हैं।

क्या किसी को पता है?

उत्तर

4

आपकी जेनरेट की गई पेड़ छवि का तात्पर्य है, तो आप गुणों पर विचार करते हैं। आपका 75 उदाहरण आउटलुक = धूप वाली शाखा से संबंधित है। यदि आप Outlook = sunny के अनुसार अपना डेटा फ़िल्टर करते हैं, तो आपको निम्न तालिका मिलती है।

outlook temperature humidity windy play 
sunny 69   70   FALSE yes 
sunny 75   70   TRUE yes 
sunny 85   85   FALSE no 
sunny 80   90   TRUE no 
sunny 72   95   FALSE no 

आप देख सकते हैं, नमी के लिए सीमा इस हालत के लिए "< 75" है।

j4.8 उत्तराधिकारी ID3 algorithm है। यह सर्वोत्तम विभाजन का निर्णय लेने के लिए सूचना लाभ और एन्ट्रॉपी का उपयोग करता है। विकिपीडिया

The attribute with the smallest entropy 
is used to split the set on this iteration. 
The higher the entropy, 
the higher the potential to improve the classification here. 
+2

जवाब देने के लिए धन्यवाद। और हाँ, मैं आपके द्वारा लिखी गई तालिका से सहमत हूं। लेकिन सवाल यह है कि 75 नंबर कहां है? आप नमी के मूल्यों के साथ 75 वें नंबर कैसे प्राप्त करते हैं (सेट के साथ: {70,85,90,95})? – Fabrizzio

+0

यह उदाहरण किस पाठ्यपुस्तक से आता है? ऐसा लगता है कि 70 विभाजन विभाजन होना चाहिए। – dan

+0

थ्रेसहोल्ड वैल्यू की गणना करने के अलग-अलग तरीके हैं? इंटरनेट पर इस उदाहरण को देखें: मानों की निम्न तालिका ([डेटा]: http://goo.gl/xphRz) में निम्नलिखित पेड़ में परिणाम हैं: [arbol]: http: //goo.gl/3ydq7 । उदाहरण थ्रेसहोल्ड वैल्यू = 70 दिखाता है जब Att1 ए है। लेकिन Quinlan के एल्गोरिदम के साथ यह वही उदाहरण 75 थ्रेसहोल्ड मान के रूप में दिखाया गया है। इस मूल्य की गणना कैसे करें? – Fabrizzio

2

के अनुसार मैं J48 के बारे में पूरी तरह से यकीन नहीं है, लेकिन यह सोचते हैं अपने C4.5 यह सब संभव विभाजन के लिए लाभ की गणना के आधार पर (जैसे कि, सुविधा के लिए संभावित मानों के आधार पर)। प्रत्येक विभाजन के लिए, यह सूचना लाभ की गणना करता है और अधिकांश जानकारी लाभ के साथ विभाजन को चुनता है। {70,85,90,95} के मामले में यह {70 | 85,90,95} बनाम {70,85 | 90,95} बनाम {70,85,90 | 95} के लिए जानकारी लाभ की गणना करेगा और सबसे अच्छा चुनें।

सी 4.5 पुस्तक पर क्विनान की पुस्तक एक अच्छा प्रारंभिक बिंदु (https://goo.gl/J2SsPf) है। विशेष रूप से पेज 25 देखें।

संबंधित मुद्दे