5

मैं इस पेपर को समझने की कोशिश कर रहा हूं कि एक पोंग गेम खेलने के लिए तंत्रिका नेटवर्क को कैसे प्रशिक्षित किया जाए। https://cloud.github.com/downloads/inf0-warri0r/neural_pong/README.pdfपोंग गेम खेलने के लिए तंत्रिका नेटवर्क को कैसे प्रशिक्षित किया जाए?

मैंने हाल ही में तंत्रिका नेटवर्क का अध्ययन करना शुरू कर दिया है और मुझे बैक प्रोपेगेशन की अवधारणा पता है। इस पेपर में तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए बैक प्रोपेगेशन का उपयोग किया जाता है।

इस तंत्रिका नेटवर्क में पांच इनपुट न्यूरॉन्स हैं। (Bx)

  1. एक्स गेंद की समन्वय
  2. y (से) x दिशा में गेंद (BVX)
  3. y दिशा में गेंद के वेग के
  4. वेग गेंद का समन्वय (bvy)
  5. पैडल की स्थिति (पीई)।

छिपे हुए परत में दस न्यूरॉन्स और आउटपुट परत में एक न्यूरॉन हैं जो पैडल (पीई) की स्थिति को आउटपुट करेंगे।

enter image description here

इस बिंदु से आगे मैं बाहर खाली करने के लिए कुछ संदेह था।

जैसा कि पीछे प्रचार एक पर्यवेक्षित शिक्षण विधि है, इसमें कुछ वांछित आउटपुट होना चाहिए जिससे हम आउटपुट में त्रुटि को खोजने और ग्रेडियेंट वंश की गणना करने के लिए वर्तमान आउटपुट को घटाना चाहते हैं।

  1. अब मुझे समझ में नहीं आता कि इस मामले में वांछित आउटपुट क्या होगा। क्या यह उस स्थिति के बीच की दूरी हो सकती है जहां गेंद दीवार को हिट करती है और पैडल की स्थिति, जिसे हमें शून्य रखना चाहिए?

  2. मुझे पता है कि नियंत्रण पैडल को गेंद के साथ सिंक्रनाइज़ करने के लिए कड़ी मेहनत की जाएगी, लेकिन हम इसे प्रशिक्षण देते समय यादृच्छिक रूप से अन्य पैडल कैसे ले जाते हैं? इनपुट "पीई" में हमें क्या मूल्य देना चाहिए?

  3. खेल में किस बिंदु पर सभी पांच इनपुट बीएक्स, बीवीएक्स, बीवी और पीई प्रदान किए जाने चाहिए? क्या हमें इन इनपुटों को देना चाहिए और गेंद को दीवार पर हिट करते समय केवल तंत्रिका नेटवर्क पुनरावृत्ति का एक युग करना चाहिए?

उत्तर

5

सबसे पहले मैं इस शैक्षिक उपकरण के रूप में इस पेपर का उपयोग करने से आपको विचलित करना चाहता हूं। कोड खराब दस्तावेज है, और कागज खुद ही जानकारीपूर्ण नहीं है।

  1. कोड भंडार में उन्होंने जहां यह होना चाहिए करने के लिए चप्पू से दूरी के रूप में उत्पादन का उपयोग करने के लिए प्रकट होता है। जब वह पैडल याद करता है तब वह पैडल से गेंद तक वास्तविक दूरी के आधार पर नेटवर्क को प्रशिक्षित करता है।

  2. मूल पेपर एक-दूसरे के खिलाफ दो नेटवर्कों को प्रशिक्षित करके विरोधी पैडल को स्थानांतरित करता है। इसमें कुछ कमीएं हैं, लेकिन इस मामले में कोई मुद्दा नहीं होना चाहिए। पीई के लिए मान वर्तमान पैडल वाई समन्वय

  3. कोड में वह प्रत्येक फ्रेम पर गेम की धाराओं के साथ नेटवर्क प्रदान करता है, और फिर उन्हें स्थानांतरित करने के लिए एक लक्षित दूरी चुनने की अनुमति देता है।जब भी वे गेंद को याद करते हैं तो वह एनएन को प्रशिक्षित करता है।

इस डिज़ाइन में कुछ नुकसान हैं। उदाहरण के लिए, आपको केवल प्रत्येक गेंद के लिए इसे प्रशिक्षित करने के लिए एक डेटा पॉइंट मिलता है, और जब हम इस डेटा बिंदु को एकत्र करते हैं तो गेंद हमेशा गेम बोर्ड के किनारे पर होती है, इसलिए हम गेंद को कब स्थानांतरित करने के बारे में बहुत कुछ नहीं सीखते वास्तव में नक्शे के चारों ओर उछाल रहा है।

मैं नेटवर्क के अनुसार दिए गए सभी मूल्यों का ट्रैक रखने की अनुशंसा करता हूं क्योंकि यह खेलता है। बाद में आप मूल गेम स्टेटस और गेंद को वास्तविक स्थान का उपयोग करके नेटवर्क को प्रशिक्षित कर सकते हैं। इस तरह नेटवर्क को सफलतापूर्वक प्रशिक्षित किया जा सकता है जब भी यह गेंद को सफलतापूर्वक ब्लॉक करता है, और यह गेम के सभी बिंदुओं से डेटा प्राप्त करता है।

संबंधित मुद्दे

 संबंधित मुद्दे