मैं तंत्रिका जाल में पूर्वाग्रह नोड की भूमिका को समझता हूं, और छोटे नेटवर्क में सक्रियण फ़ंक्शन को स्थानांतरित करने के लिए क्यों महत्वपूर्ण है। मेरा सवाल यह है: क्या बहुत बड़े नेटवर्क में पूर्वाग्रह अभी भी महत्वपूर्ण है (अधिक विशेष रूप से, रेलू सक्रियण समारोह, 3 संकल्पक परतों, 2 छिपी हुई परतों, और 100,000 से अधिक कनेक्शन का उपयोग करके छवि पहचान के लिए एक संक्रामक तंत्रिका नेटवर्क), या इसका प्रभाव मिलता है सक्रियण की तीव्र संख्या से खो गया?क्या पूर्वाग्रह नोड बहुत बड़े तंत्रिका नेटवर्क में आवश्यक है?
कारण मैं पूछता हूं क्योंकि अतीत में मैंने नेटवर्क बनाया है जिसमें मैं पूर्वाग्रह नोड को लागू करना भूल गया हूं, हालांकि किसी को जोड़ने पर प्रदर्शन में नगण्य अंतर देखा गया है। क्या यह मौका कम हो सकता है, जिसमें निर्दिष्ट डेटा सेट को पूर्वाग्रह की आवश्यकता नहीं है? क्या मुझे बड़े नेटवर्क में बड़े मूल्य के साथ पूर्वाग्रह शुरू करने की आवश्यकता है? किसी भी अन्य सलाह की सराहना की जाएगी।
आह, यह पता चला है कि पूर्वाग्रह छोटा है, इसलिए मुझे लगता है कि डेटासेट पहले ही उचित रूप से केंद्रित होना चाहिए। उत्तर के लिए चीयर्स। – Hungry