मैं इस पेपर को समझने की कोशिश कर रहा हूं कि एक पोंग गेम खेलने के लिए तंत्रिका नेटवर्क को कैसे प्रशिक्षित किया जाए। https://cloud.github.com/downloads/inf0-warri0r/neural_pong/README.pdfपोंग गेम खेलने के लिए तंत्रिका नेटवर्क को कैसे प्रशिक्षित किया जाए?
मैंने हाल ही में तंत्रिका नेटवर्क का अध्ययन करना शुरू कर दिया है और मुझे बैक प्रोपेगेशन की अवधारणा पता है। इस पेपर में तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए बैक प्रोपेगेशन का उपयोग किया जाता है।
इस तंत्रिका नेटवर्क में पांच इनपुट न्यूरॉन्स हैं। (Bx)
- एक्स गेंद की समन्वय
- y (से) x दिशा में गेंद (BVX)
- y दिशा में गेंद के वेग के
- वेग गेंद का समन्वय (bvy)
- पैडल की स्थिति (पीई)।
छिपे हुए परत में दस न्यूरॉन्स और आउटपुट परत में एक न्यूरॉन हैं जो पैडल (पीई) की स्थिति को आउटपुट करेंगे।
इस बिंदु से आगे मैं बाहर खाली करने के लिए कुछ संदेह था।
जैसा कि पीछे प्रचार एक पर्यवेक्षित शिक्षण विधि है, इसमें कुछ वांछित आउटपुट होना चाहिए जिससे हम आउटपुट में त्रुटि को खोजने और ग्रेडियेंट वंश की गणना करने के लिए वर्तमान आउटपुट को घटाना चाहते हैं।
अब मुझे समझ में नहीं आता कि इस मामले में वांछित आउटपुट क्या होगा। क्या यह उस स्थिति के बीच की दूरी हो सकती है जहां गेंद दीवार को हिट करती है और पैडल की स्थिति, जिसे हमें शून्य रखना चाहिए?
मुझे पता है कि नियंत्रण पैडल को गेंद के साथ सिंक्रनाइज़ करने के लिए कड़ी मेहनत की जाएगी, लेकिन हम इसे प्रशिक्षण देते समय यादृच्छिक रूप से अन्य पैडल कैसे ले जाते हैं? इनपुट "पीई" में हमें क्या मूल्य देना चाहिए?
खेल में किस बिंदु पर सभी पांच इनपुट बीएक्स, बीवीएक्स, बीवी और पीई प्रदान किए जाने चाहिए? क्या हमें इन इनपुटों को देना चाहिए और गेंद को दीवार पर हिट करते समय केवल तंत्रिका नेटवर्क पुनरावृत्ति का एक युग करना चाहिए?