आइए बैक-प्रोपेगेशन (बीपी) नेटवर्क में नोड पर विचार करें। इसमें कई इनपुट हैं, और आउटपुट मान उत्पन्न करते हैं। हम प्रशिक्षण के लिए त्रुटि-सुधार का उपयोग करना चाहते हैं, इसलिए यह नोड के त्रुटि अनुमान के आधार पर वजन भी अपडेट करेगा।
प्रत्येक नोड में पूर्वाग्रह मान होता है, θ। आप इसे एक आंतरिक, स्थिर 1.0 मूल्यवान इनपुट के लिए वजन के रूप में सोच सकते हैं।
सक्रियण भारित इनपुट और पूर्वाग्रह मान का सारांश है। चलिए जे के रूप में ब्याज के हमारे नोड को संदर्भित करते हैं, पिछली परत में नोड्स के मानों के साथ, और के परतों के साथ सफल परत में नोड्स। हमारे नोड j की सक्रियता तो है:
है यही कारण है कि, जे के लिए सक्रियण मूल्य नोड I से आउटपुट के उत्पादों का योग है और इसी वजन को जोड़ने वाले नोड I और j, साथ ही पूर्वाग्रह मान भी है।
ओ जे = f (शुद्ध जे):
हमारे नोड j के उत्पादन में सक्रियण के हस्तांतरण समारोह है।
च (शुद्ध जे) = 1/(1 + ई -net जे)
अवग्रह समारोह एक आसान पहले व्युत्पन्न निर्दिष्ट करने के लिए है:
एफ '(नेट जे) = एफ (नेट जे) × (1।0 - च (शुद्ध जे))
जो भी हस्तांतरण समारोह हम उपयोग करते हैं, हम जानना चाहते हैं अपनी पहली व्युत्पन्न गणना करने के लिए कैसे की जरूरत है। बीपी चेन नियम के माध्यम से ढाल वंश द्वारा काम करता है, इसलिए यह महत्वपूर्ण है। उपरोक्त समीकरण एक अलग हस्तांतरण समारोह के साथ अलग होगा।
अब तक, हम जानते हैं कि इनपुट मान कैसे प्राप्त करें, सक्रियण की गणना करें, आउटपुट की गणना करें, और सक्रियण के पहले व्युत्पन्न की गणना करें। अब हमें त्रुटियों और वजन समायोजन से निपटने की जरूरत है।
बीपी में नोड त्रुटि अनुमान के लिए उपयोग किया जाने वाला मान δ कहा जाता है। नोड के लिए δ नोड के सक्रियण के पहले व्युत्पन्न और इसे प्राप्त होने वाली त्रुटि अवधि के आनुपातिक है। प्राप्त त्रुटि अवधि के लिए दो फॉर्मूलेशन हैं, आउटपुट नोड्स के लिए एक और छुपा नोड्स के लिए एक।
Generically,
δ = च '(शुद्ध) × (प्राप्त त्रुटि)
एक निर्गम नोड के लिए,
δ उत्पादन = च' (शुद्ध) × (टी - ओ)
जहां टी उस आउटपुट नोड पर अपेक्षित मूल्य है, और ओ उस आउटपुट नोड का वास्तविक आउटपुट मान है।
हमारे छिपा नोड जे के लिए, यह इस तरह है:
δ जे = च '(शुद्ध जे) Σ × कश्मीर (δ कश्मीर × डब्ल्यू जेके)
हमारे नोड जे के लिए δ, जे δ, हमारे ट्रॅन के पहले व्युत्पन्न का उत्पाद है कार्यप्रणाली के समय को सुरक्षित कार्य अगली परत (आउटपुट के नजदीक) में डेल्टा के योग को जोड़ने वाले वजन के मूल्य के साथ प्रत्येक गुणा किया जाता है। हाथ में, हम गणना कर सकते हैं कि नोड्स की पिछली परत (इनपुट के करीब) पर जाने वाले वजन को कैसे समायोजित किया जाए।
DW ij = एल × ओ मैं × δ जे
यहाँ DW "वजन में परिवर्तन" का प्रतिनिधित्व करता है, तो क्या समीकरण कहते है कि से एक वजन में परिवर्तन हमारे नोड जे के लिए नोड मैं सीखने के पैरामीटर एल (आमतौर पर नेटवर्क में सभी नोड्स के लिए समान मूल्य) के उत्पाद के बराबर है, नोड i का आउटपुट मान, और हमारे नोड जे के लिए δ (त्रुटि शब्द)।
पूर्वाग्रह मान समायोजित करना वजन को समायोजित करने के समान है।
dθ जे = × च एल (θ जे) × δ जे
dθ यहाँ "θ में परिवर्तन" का प्रतिनिधित्व करता है। हमें नोड से आउटपुट की तरह शब्द प्राप्त करने के लिए पूर्वाग्रह मान θ j पर स्थानांतरण फ़ंक्शन को लागू करना होगा। अन्यथा, यह अन्य समीकरण की तरह दिखता है।
मुझे ध्यान रखना चाहिए कि वजन परिवर्तन की गणना नेटवर्क-व्यापी की जानी चाहिए, और फिर उन सभी की गणना के बाद परिवर्तन लागू करें।
यह एक बहुत व्यापक सवाल है। आप http://dsp.stackexchange.com पर बेहतर भाग्य प्राप्त कर सकते हैं। – mtrw
आप चित्रों के साथ http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html –
पर एक बहुत अच्छी स्पष्टीकरण पा सकते हैं यह एक महान स्पष्टीकरण मार्क है! मुझे यकीन नहीं है कि मैं अंतर बिट समझता हूं। क्या डीएफ (ई)/डी का अर्थ पूरे भारित योग (ई) के संबंध में व्युत्पन्न है या केवल उस कनेक्शन का इनपुट जो वजन है जिसे हम अपडेट करने का प्रयास कर रहे हैं? तो कहें कि नोड में रैखिक सक्रियण फ़ंक्शन है, डीएफ (ई)/डी हमेशा बराबर 1 (एफ (ई) = ई -> डीएफ (ई)/डी = 1) होगा? या यह हमेशा वज़न के बराबर होगा जो हम अपडेट कर रहे हैं (एफ (ई) = w1x1 + w2x2 -> डीएफ (ई)/डीएक्स 1 = डब्ल्यू 1) –