2011-03-07 20 views
8

सभी reinforcement learning एल्गोरिदम के बारे में मैं आमतौर पर एक एजेंट कार्यों की एक निश्चित संख्या है पर लागू होते हैं पढ़ा है के साथ। क्या कार्यवाही की एक चरम संख्या को ध्यान में रखते हुए निर्णय लेने के लिए कोई सुदृढीकरण सीखने वाले एल्गोरिदम हैं? उदाहरण के लिए, आप कंप्यूटर गेम में आरएल एल्गोरिदम कैसे लागू करेंगे जहां एक खिलाड़ी एन सैनिकों को नियंत्रित करता है, और प्रत्येक सैनिक के पास इसकी स्थिति के आधार पर यादृच्छिक संख्या होती है? आप वैश्विक निर्णय निर्माता (यानी "सामान्य") के लिए निश्चित संख्या में कार्यवाही तैयार नहीं कर सकते हैं क्योंकि सैनिकों को बनाए और मारने के रूप में उपलब्ध क्रियाएं लगातार बदल रही हैं। और आप सैनिक स्तर पर निश्चित संख्या में कार्रवाई नहीं कर सकते हैं, क्योंकि सैनिक के कार्य अपने तत्काल पर्यावरण के आधार पर सशर्त हैं। यदि कोई सैनिक कोई विरोधियों को नहीं देखता है, तो यह केवल चलने में सक्षम हो सकता है, जबकि यदि यह 10 विरोधियों को देखता है, तो इसमें 10 नए संभावित कार्यवाही होती हैं, जिसमें 10 विरोधियों में से 1 पर हमला होता है।सुदृढीकरण सीखना चर क्रिया

उत्तर

4

आप क्या वर्णन असामान्य बात नहीं है। सुदृढ़ीकरण सीखना Markov Decision Process के मान फ़ंक्शन को खोजने का एक तरीका है। एक एमडीपी में, प्रत्येक राज्य के अपने कार्यों का सेट होता है। मजबूती सीखने के आवेदन के साथ आगे बढ़ने के लिए, आपको स्पष्ट रूप से परिभाषित करना होगा कि राज्य, कार्य, और पुरस्कार आपकी समस्या में क्या हैं।

0

आप प्रत्येक सैनिक जो उपलब्ध हैं या कुछ शर्तों के आधार पर नहीं करने के लिए कार्यों की एक संख्या है, तो आप अभी भी इस चयन के रूप में कार्रवाई की एक निश्चित सेट से मॉडल कर सकते हैं। उदाहरण के लिए:

  • प्रत्येक सैनिक
  • के लिए कार्रवाई का पूरा सेट से प्रत्येक के लिए एक "उपयोगिता मूल्य" बनाएँ उच्चतम मूल्य का क्रिया चुनें, उन कार्यों कि एक निश्चित समय
पर उपलब्ध नहीं हैं अनदेखी

आप एक से अधिक संभव लक्ष्य नहीं हैं, तो भी यह सिद्धांत लागू होता है, इस बार जब आप अपने उपयोगिता समारोह मॉडल एक अतिरिक्त पैरामीटर के रूप में लक्ष्य पदनाम लेने के लिए, और चलाने के मूल्यांकन कार्य कई बार (प्रत्येक लक्ष्य के लिए एक) को छोड़कर। आप उस लक्ष्य को चुनते हैं जिसमें उच्चतम "हमला उपयोगिता" है।

+0

जैसा कि मैंने कहा, सैनिकों कार्यों के परिवर्तनशील भी है। हमले को एक पैरामीटर लक्ष्य बनाकर क्या मतलब है? – Cerin

+0

मेरा मतलब है: आर एल एल्गोरिथ्म लक्ष्य या विशिष्ट कार्रवाई आपको एक अतिरिक्त इनपुट के रूप में विचार कर रहे हैं बारे में कुछ जानकारी ले सकते हैं। फिर आप इसे आवश्यकतानुसार कई लक्ष्यों और/या कार्रवाइयों पर लागू कर सकते हैं। आप बस प्रत्येक पर विचार करने के लिए अलग-अलग लक्ष्य और/या कार्रवाई जानकारी के साथ एल्गोरिदम पुनः चलाएं। – mikera

संबंधित मुद्दे