5

मैं एक तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए जैविक डेटा को पूर्व-प्रक्रिया करने की कोशिश कर रहा हूं और विभिन्न सामान्यीकरण विधियों की व्यापक खोज और दोहराव प्रस्तुतिकरण के बावजूद मैं कोई भी बुद्धिमान नहीं हूं कि किस विधि का उपयोग किया जाना चाहिए। विशेष रूप से मेरे पास कई इनपुट वेरिएबल्स हैं जो सकारात्मक रूप से तिरछे हुए हैं और यह स्थापित करने की कोशिश कर रहे हैं कि कोई सामान्यीकरण विधि है जो सबसे उपयुक्त है।skewed सुविधाओं के लिए सबसे उपयुक्त सामान्यीकरण/परिवर्तन विधि?

मैं भी के बारे में कि क्या इन आदानों की प्रकृति नेटवर्क के प्रदर्शन को प्रभावित करेगा चिंतित था और जैसे (लॉग विशेष रूप से परिवर्तन) डेटा परिवर्तनों के साथ प्रयोग किया है। हालांकि कुछ इनपुट में बहुत से शून्य होते हैं लेकिन छोटे दशमलव मान भी हो सकते हैं और सामान्य रूप से संपर्क करने में विफल होने के परिणामस्वरूप वितरण (x + 1) (या उस मामले के लिए 1 से 0.0000001 तक कोई भी संख्या) से अत्यधिक प्रभावित हो सकता है (या तो अवशेष न्यूनतम मूल्य पर एक तेज चोटी के साथ skewed या bimodal बन जाता है)।

क्या यह तंत्रिका नेटवर्क से संबंधित है? अर्थात। क्या मुझे विशिष्ट डेटा परिवर्तन/सामान्यीकरण विधियों का उपयोग स्क्व्यूड डेटा के लिए खाते में करना चाहिए या क्या मुझे इसे अनदेखा करना चाहिए और सामान्यीकरण विधि चुनना चाहिए और आगे बढ़ना चाहिए?

इस मामले पर कोई सलाह बहुत सराहना की जाएगी!

धन्यवाद!

उत्तर

0

यह एक दिलचस्प सवाल है। सामान्यीकरण अनुकूलन प्रक्रिया को सुविधाजनक बनाने के लिए सुविधाओं के मूल्यों को एक पैमाने पर रखने के लिए है।

मैं निम्नलिखित सुझाव है:

1- चेक अगर आप अपने डेटा को सामान्य बनाने की जरूरत है। यदि, उदाहरण के लिए, चर या विशेषताओं के साधन मूल्यों के समान पैमाने के होते हैं, तो आप सामान्यीकरण के साथ प्रगति कर सकते हैं। MSVMpack उनके SVM ​​कार्यान्वयन के लिए कुछ सामान्यीकरण जांच स्थिति का उपयोग करता है। यदि, हालांकि, आपको ऐसा करने की आवश्यकता है, तो आपको अभी भी सामान्यीकरण के बिना डेटा पर मॉडल चलाने की सलाह दी जाती है।

2- आप एक सुविधा की वास्तविक अधिकतम या न्यूनतम मूल्यों को जानते हैं, उन्हें सुविधा को सामान्य बनाने का उपयोग करें। मुझे लगता है कि इस तरह के सामान्यीकरण मूल्यों में skewedness को संरक्षित करेगा।

3- लागू होने पर अन्य सुविधाओं के साथ दशमलव मान सामान्यीकरण का प्रयास करें।

अंत में, आप अभी भी विभिन्न सामान्य तकनीकों को लागू और z- स्कोर जो आपके डेटा के skewedness को नुकसान पहुँचा सकती सहित evey तकनीक के लिए एमएसई तुलना करने के लिए सलाह दी जाती है।

मुझे उम्मीद है कि मैंने आपके प्रश्न का उत्तर दिया है और कुछ समर्थन दिया है।

+0

सामान्यीकरण जांच स्थिति के बारे में, मैंने एमएसवीएमपीएक्स का उपयोग करके कुछ डेटासेट चलाने की कोशिश की और मुझे निम्न आउटपुट मिला: ** डेटा मैट्रिक्स के कॉलम उनके मानक विचलन (> 10) के बीच एक बड़ा अंतर ** दिखाते हैं। ** यह वर्गीकृत के प्रदर्शन को प्रभावित कर सकता है। क्या आप डेटा को सामान्यीकृत करना चाहते हैं ([y]/n)? – soufanom

2

के रूप में अपने इनपुट वेक्टर में सुविधाओं विभिन्न प्रकृति के हैं, तो आप हर सुविधा के लिए अलग अलग सामान्य एल्गोरिदम का उपयोग करना चाहिए। बेहतर प्रदर्शन के लिए प्रत्येक इनपुट पर वर्दीबद्ध डेटा द्वारा नेटवर्क को खिलाया जाना चाहिए।

आप लिखा है कि कुछ डेटा विषम है, मुझे लगता है कि आप कुछ एल्गोरिथ्म यह "सामान्य" करने के लिए चला सकते हैं। यदि लॉगरिथम लागू नहीं होता है, तो शायद other functions और rank transforms जैसी विधियों का प्रयास किया जा सकता है।

छोटे दशमलव मान पूरी तरह से एक विशिष्ट सुविधा में होते है, तो बस यह विशिष्ट तरीके से सामान्य है, ताकि वे अपने काम रेंज के रूप में तब्दील हो: या तो [0, 1] या [-1, +1 ] मुझे लगता है।

यदि कुछ इनपुट में कई शून्य हैं, तो उन्हें मुख्य तंत्रिका नेटवर्क से निकालने पर विचार करें, और अतिरिक्त तंत्रिका नेटवर्क बनाएं जो गैर-शून्य वाली सुविधाओं वाले वैक्टरों पर काम करेगा। वैकल्पिक रूप से, आप इनपुट स्पेस आयाम को कम करने के लिए प्रिंसिपल कंपोनेंट एनालिसिस (उदाहरण के लिए, संरचना एनएमएन, एम < एन के साथ ऑटोसॉसिटिव मेमोरी नेटवर्क के माध्यम से) चलाने की कोशिश कर सकते हैं और इसलिए शून्य किए गए घटकों को खत्म कर सकते हैं (उन्हें वास्तव में नए संयुक्त इनपुट में किसी भी तरह से ध्यान में रखा जाएगा)। बीटीडब्ल्यू, नए एम इनपुट स्वचालित रूप से सामान्य हो जाएगा। फिर आप अपने वास्तविक कार्यकर्ता तंत्रिका नेटवर्क में नए वैक्टर पास कर सकते हैं।

संबंधित मुद्दे