7

क्या वर्गीकरण डेटा के संबंध में डेटा खनन के क्षेत्र में कोई शोध किया गया है जिसमें कई रिश्ते हैं?क्या कोई वर्गीकरण एल्गोरिदम है जो एक से कई (1: एन) संबंधों के साथ डेटा लक्षित करता है?

इस तरह की समस्या के उदाहरण के लिए, मैं कहता हूं कि मैं कौन से छात्र अपने कक्षा ग्रेड और व्यक्तिगत जानकारी के आधार पर विश्वविद्यालय से बाहर निकलने जा रहे हैं। स्पष्ट रूप से छात्रों के बीच व्यक्तिगत संबंधों और उनके वर्गों में प्राप्त ग्रेड के बीच कई रिश्तों में से एक है।

स्पष्ट दृष्टिकोण में शामिल हैं:

  1. सकल - कई रिकॉर्ड किसी तरह से एक बुनियादी वर्गीकरण समस्या के लिए समस्या को कम करने में एक साथ एकत्रित किया जा सकता है। छात्र वर्गीकरण के मामले में, उनके ग्रेड का औसत उनके व्यक्तिगत डेटा के साथ जोड़ा जा सकता है। हालांकि यह समाधान सरल है, अक्सर महत्वपूर्ण जानकारी खो जाती है। उदाहरण के लिए, यदि अधिकांश छात्र कार्बनिक रसायन लेते हैं और सी-एंड के नीचे उतरते हैं तो भी उनका औसत बी + रेटिंग से ऊपर है।

  2. वोटिंग - कई classifiers (अक्सर कमजोर वाले) बनाएँ और उन्हें प्रश्न में डेटा के समग्र वर्ग निर्धारित करने के लिए वोट डाले है। ऐसा होगा जैसे दो वर्गीकृत बनाए गए थे, एक छात्र के पाठ्यक्रम डेटा के लिए और एक उनके व्यक्तिगत डेटा के लिए। प्रत्येक कोर्स रिकॉर्ड कोर्स क्लासिफायरफायर को पास किया जाएगा और ग्रेड और पाठ्यक्रम के नाम पर आधारित होगा, क्लासिफायर भविष्यवाणी करेगा कि छात्र अकेले उस कोर्स रिकॉर्ड का उपयोग कर छोड़ देगा या नहीं। व्यक्तिगत डेटा रिकॉर्ड व्यक्तिगत डेटा क्लासिफायरफायर का उपयोग करके वर्गीकृत किया जाएगा। फिर व्यक्तिगत जानकारी रिकॉर्ड भविष्यवाणी के साथ सभी वर्ग रिकॉर्ड भविष्यवाणियों को एक साथ वोट दिया जाएगा। यह मतदान कई अलग-अलग तरीकों से किया जा सकता है, लेकिन अधिकतर संभावना यह ध्यान में रखेगी कि क्लासिफायर कितने सटीक हैं और क्लासिफायर कितना निश्चित था। स्पष्ट रूप से यह योजना एकत्रीकरण की तुलना में अधिक जटिल वर्गीकरण पैटर्न की अनुमति देती है, फिर भी इसमें बहुत अधिक जटिल जटिलता शामिल है। अगर मतदान अच्छी तरह से नहीं किया जाता है, तो सटीकता आसानी से पीड़ित हो सकती है।

तो मैं कई रिश्ते के लिए एक साथ डेटा का वर्गीकरण अन्य संभावित समाधानों रहा हूँ।

+0

हाय @Nixuz मुझे अपनी परियोजना के साथ एक ही स्थिति का सामना करना पड़ रहा है, जिस विकल्प का आपने चयन किया था? –

उत्तर

2

आप प्रत्येक ग्रेड को एक ही मॉडल की अलग सुविधा के रूप में क्यों नहीं मानेंगे?

student['age'] = 23 
student['gender'] = 'male' 
... 
student['grade_in_organic_chemistry'] = 'B+' 
student['grade_in_classical_physics'] = 'A-' 

मुझे लगता है मैं नहीं दिखाई दे रहा तुम क्यों या चाहेगा करने के लिए "कुल" एक साथ कई classifiers में शामिल होने जब ग्रेड सिर्फ अलग सुविधाओं हो सकता है लगता है?

(कृपया लंगड़ा psuedocode ऊपर बहाना, लेकिन सिर्फ मेरी बात को प्रदर्शित करने की कोशिश कर)

+0

क्षमा करें अगर मैंने यह स्पष्ट नहीं किया लेकिन सभी छात्र एक ही पाठ्यक्रम नहीं लेते हैं। तो या तो हम रिकॉर्ड में शून्य मूल्यों से बहुत दूर रहेंगे या रिकॉर्ड आपके समाधान का उपयोग करके वर्गीकृत के लिए मानक नहीं होंगे। – Nixuz

+0

मुझे लगता है कि मुझे क्या स्पष्ट नहीं है, इसका मतलब है "रिकॉर्ड" से आपका क्या मतलब है? क्या आप इस छात्र मॉडल को आरडीबीएमएस में स्टोर करने के तरीके के बारे में पूछ रहे हैं या वर्गीकरण के लिए छात्र के फीचर सेट को मॉडल कैसे करें? यदि यह उत्तरार्द्ध है, तो मुझे नहीं पता कि फीचर सेट को सभी छात्रों में मानक क्यों होना चाहिए। कुछ छात्रों में 'ग्रेड_इन_ऑर्गनिक_केमिस्ट्री' सुविधा होगी, अन्य लोग नहीं करेंगे। वर्गीकरण इंजन को यह समझने के लिए डिज़ाइन किया जाएगा कि कुछ सुविधाएं वैकल्पिक हैं और संभावित रूप से उस जानकारी का वर्गीकरण करने के लिए भी उपयोग करें। –

+0

+1 क्योंकि आपको पहले सीधे दृष्टिकोण की कोशिश करनी चाहिए। बहुत सारे शून्य मान एक समस्या नहीं हो सकते हैं - यदि आप सही एल्गोरिदम का उपयोग करते हैं तो यह एनएलपी में बैग-ऑफ-शब्द मॉडल में नहीं है। एसवीएम स्पैस, उच्च आयामी इनपुट के साथ ठीक काम करते हैं। – Stompchicken

0

इसे और अधिक जानने के बिना कहना मुश्किल है, लेकिन बायेसियन नजरिए से, आप लापता सुविधाओं के मामले में दिलचस्पी हो सकती है । मैं सामान्य शब्दों में चर्चा करूंगा। अधिक के लिए, देखें [डुडा और हार्ट, दूसरा संस्करण, पीपी 54-55]। |

किसी भी वर्गीकारक के लिए, Bayes निर्णय शासन वर्ग मैं जो दिया होने वाली है कि डेटा एक्स मनाया गया वर्ग मैं की संभावना अधिकतम, यानी, अधिकतम P (x i) चुनने के लिए है । वेक्टर x में विशेषताएं हैं, उदाहरण के लिए, एक छात्र के ग्रेड, आयु इत्यादि।

सभी छात्र समान कक्षाएं नहीं लेते हैं, इसलिए फीचर वेक्टर x में खाली तत्व हो सकते हैं, यानी, "अनुपलब्ध विशेषताएं"। उस स्थिति में, आपको लापता सुविधाओं पर को कम करना होगा, यानी, लापता सुविधाओं पर बस योग करें, और फिर अच्छी, शेष सुविधाओं पर निर्णय लें।

उदाहरण। मान लीजिए कि एक छात्र जीव विज्ञान लिया, लेकिन नहीं रसायन शास्त्र:

P(student drops out | A+ in biology) 
= P(student drops out, A+ in biology)/P(A+ in biology) 
= P(student drops out, A+ in biology, A in chemistry) 
    --------------------------------------------------- 
    P(A+ in biology, A in chemistry) 
    + 
    P(student drops out, A+ in biology, B in chemistry) 
    --------------------------------------------------- 
    P(A+ in biology, B in chemistry) 
    + ... + 
    P(student drops out, A+ in biology, F in chemistry) 
    --------------------------------------------------- 
    P(A+ in biology, F in chemistry) 
+0

जबकि मुझे लगता है कि यह विधि कुछ मामलों में काम करेगी, उदाहरण के लिए मैंने जो उदाहरण दिया है, मुझे लगता है कि अगर छात्र के पाठ्यक्रम के रिकॉर्ड में बड़ी संख्या में गुण होते हैं तो यह परेशानी में पड़ सकता है। यदि ऐसा है तो प्रत्येक रिकॉर्ड में बड़ी संख्या में शून्य मान (गायब फीचर्स) होंगे। उदाहरण के लिए यदि प्रत्येक पाठ्यक्रम में 100 गुण होते हैं तो हम संभावित रूप से हजारों शून्य मूल्यों के साथ समाप्त हो सकते हैं और आयाम के अभिशाप हमें मार सकते हैं। – Nixuz

+0

दूसरा, उन मामलों के बारे में क्या है जहां एन असंबद्ध है? उदाहरण के लिए, कहें कि छात्र कक्षाओं को जितनी बार चाहें उतनी बार ले सकते हैं।यह अस्पष्ट है कि हम इस मामले को कैसे संभालेंगे, क्योंकि कोई भी तरीका नहीं है कि हम सभी संभावित विशेषताओं को स्थापित कर सकें क्योंकि उनमें से एक अनंत संख्या है। – Nixuz

0

मैं दो बुनियादी पथ आगे की कल्पना:

  1. आप इसे कहते है, "कुल" समाधान है, जो प्रत्येक छात्र की के विभिन्न सारांश का उपयोग होगा स्थिति: कितने वर्ग ले लिए गए थे, कक्षाओं का प्रतिशत किस प्रकार 101 वर्ग, औसत ग्रेड, निम्नतम क्वार्टाइल ग्रेड इत्यादि थे।

  2. कुछ प्रकार के साक्ष्य संचयक, जैसे बेवकूफ बेयस मॉडल (जैसा कि पहले से ही स्टीव द्वारा सुझाया गया है) या एक अस्पष्ट logi सी नियम आधार। ऐसे समाधान स्वाभाविक रूप से आने वाले डेटा की अलग-अलग मात्रा को संभालते हैं। मुझे लगता है कि यह एक विशाल पारंपरिक मॉडल (तंत्रिका नेटवर्क, आदि) का उपयोग करके पर्याप्त डेटा के साथ हासिल किया जा सकता है और इनपुट का एक बहुत बड़ा सेट (जिनमें से अधिकांश "लापता" के लिए एक तटस्थ मूल्य पर सेट किया जाएगा), लेकिन मुझे शक है साथ ही साथ अन्य विकल्प भी काम करेंगे।

क्षमा करें, लेकिन मुझे लगता है कि इस विशेष मामले में "सरल समाधानों का गिरोह" कमजोर होगा। यह कहना नहीं है कि यह काम नहीं करेगा, लेकिन मैं कहीं और शुरू करूंगा।

1

इस जबकि शायद उप इष्टतम, विशेष तरीकों की तुलना में आप शायद एक SVM सुधार के साथ असंतुलित वर्ग के लिए के रूप में निम्न उदाहरण में (अजगर पुस्तकालय scikit-learn का प्रयोग करके) इस्तेमाल कर सकते हैं:

http://scikit-learn.sourceforge.net/auto_examples/svm/plot_weighted_classes.html

में अभ्यास, मेरे पास काफी असंतुलित वर्गों के साथ अच्छे नतीजे हैं।

संबंधित मुद्दे