वाह, आप कुछ प्रशिक्षण डेटा है और यदि आप नहीं जानते कि क्या आप एक दस्तावेज़, या एक सेल में Genèse में शब्दों का प्रतिनिधित्व सुविधाओं को देख रहे हैं और धुन के लिए एक वर्गीकारक की जरूरत है ताकि। खैर, चूंकि आपके पास कोई अर्थपूर्ण जानकारी नहीं है, इसलिए आपको डेटा सेट के सांख्यिकीय गुणों को देखकर इस सोली को करना होगा।
पहले, समस्या तैयार करने के लिए, इस से अधिक सिर्फ बनाम गैर रेखीय रेखीय है। आप वास्तव में इस डेटा को वर्गीकृत करने के लिए देख रहे हैं, तो आप वास्तव में क्या करने की जरूरत है वर्गीकारक जो रेखीय हो सकता है, या गैर रेखीय (गाऊसी, बहुपद, अतिशयोक्तिपूर्ण, आदि इसके अलावा प्रत्येक कर्नेल समारोह का समय लग सकता के लिए एक कर्नेल समारोह का चयन करने के लिए है एक या अधिक पैरामीटर जिन्हें सेट करने की आवश्यकता होगी। किसी दिए गए वर्गीकरण समस्या के लिए इष्टतम कर्नेल फ़ंक्शन और पैरामीटर सेट निर्धारित करना वास्तव में हल की गई समस्या नहीं है, केवल उपयोगी हेरिस्टिक हैं और यदि आप 'कर्नेल फ़ंक्शन का चयन' करते हैं या 'कर्नेल चुनें' समारोह ', आप का प्रस्ताव और विभिन्न दृष्टिकोण का परीक्षण कई शोध पत्र के लिए माना जाएगा। जबकि वहाँ कई दृष्टिकोण, सबसे बुनियादी और अच्छी तरह से कूच parameters-- पर एक ढाल वंश करना है मूल रूप से आप एक कर्नेल विधि का प्रयास में से एक है और एक कर रहे हैं पैरामीटर सेट, अपने डेटा पॉइंट्स पर आधा ट्रेन करें और देखें कि आप कैसे करते हैं। फिर आप पैरामीटर का एक अलग सेट आज़माएं और देखें कि आप कैसे करते हैं। आप पैरामीटर को सटीकता में सर्वोत्तम सुधार की दिशा में ले जाते हैं जब तक आप संतुष्ट न हों टोरि परिणाम
आप एक अच्छे गिरी समारोह को खोजने के लिए यह सब जटिलता के माध्यम से जाना, और बस रेखीय या गैर रेखीय का जवाब चाहते हैं की जरूरत नहीं है। तो सवाल मुख्य रूप से दो चीजों तक आता है: गैर रेखीय वर्गीकरणियों के पास अधिकतर आबादी (सामान्यीकरण) का अधिक जोखिम होगा क्योंकि उनके पास स्वतंत्रता के अधिक आयाम हैं। वे एक अच्छा सामान्यीकरण के साथ आने के बजाय क्लासिफायर से केवल अच्छे डेटा बिंदुओं के सेट याद कर सकते हैं। दूसरी ओर एक रैखिक वर्गीकरण के पास फिट होने की स्वतंत्रता कम होती है, और डेटा के मामले में जो रैखिक रूप से अलग नहीं है, एक अच्छा निर्णय कार्य नहीं ढूंढ पाएगा और उच्च त्रुटि दर से पीड़ित होगा।
दुर्भाग्यवश, मुझे क्लासिफायरफायर को स्वयंमाने की कोशिश करने के अलावा "यह डेटा रैखिक रूप से अलग करने योग्य" प्रश्न का उत्तर देने के लिए एक बेहतर गणितीय समाधान नहीं है और यह देखता है कि यह कैसा प्रदर्शन करता है। इसके लिए आपको मेरी तुलना में एक बेहतर जवाब की आवश्यकता होगी।
संपादित करें: यह शोध पत्र एक एल्गोरिदम का वर्णन करता है जो ऐसा लगता है कि यह निर्धारित करने में सक्षम होना चाहिए कि दिए गए डेटा सेट को रैखिक रूप से अलग करने के लिए कितना करीब आता है।
http://www2.ift.ulaval.ca/~mmarchand/publications/wcnn93aa.pdf
[जिसने इस पोस्ट को बंद करना शुरू किया]: यह _is_ प्रोग्रामिंग संबंधित है! – mjv
@ एमजेवी: आपका क्या मतलब है? –
कोई चिंता नहीं; उच्च प्रतिष्ठा वाले उपयोगकर्ता प्रश्न बंद करने के लिए वोटों की गिनती देख सकते हैं, और मैंने "एनपीआर" (प्रोजेक्ट नहीं संबंधित) कारण के साथ एक वोट देखा। मेरी टिप्पणी प्रश्न के समर्थन में थी, जो दर्शाती है कि कुछ हद तक सैद्धांतिक और गणित की आवाज, यह प्रश्न प्रोग्रामिंग के लिए बहुत प्रासंगिक था। सवाल सुरक्षित लगता है, बंद करने की दिशा में अन्य वोट नहीं हैं (5 आवश्यक हैं)। – mjv