सभी reinforcement learning एल्गोरिदम के बारे में मैं आमतौर पर एक एजेंट कार्यों की एक निश्चित संख्या है पर लागू होते हैं पढ़ा है के साथ। क्या कार्यवाही की एक चरम संख्या को ध्यान में रखते हुए निर्णय लेने के लिए कोई सुदृढीकरण सीखने वाले एल्गोरिदम हैं? उदाहरण के लिए, आप कंप्यूटर गेम में आरएल एल्गोरिदम कैसे लागू करेंगे जहां एक खिलाड़ी एन सैनिकों को नियंत्रित करता है, और प्रत्येक सैनिक के पास इसकी स्थिति के आधार पर यादृच्छिक संख्या होती है? आप वैश्विक निर्णय निर्माता (यानी "सामान्य") के लिए निश्चित संख्या में कार्यवाही तैयार नहीं कर सकते हैं क्योंकि सैनिकों को बनाए और मारने के रूप में उपलब्ध क्रियाएं लगातार बदल रही हैं। और आप सैनिक स्तर पर निश्चित संख्या में कार्रवाई नहीं कर सकते हैं, क्योंकि सैनिक के कार्य अपने तत्काल पर्यावरण के आधार पर सशर्त हैं। यदि कोई सैनिक कोई विरोधियों को नहीं देखता है, तो यह केवल चलने में सक्षम हो सकता है, जबकि यदि यह 10 विरोधियों को देखता है, तो इसमें 10 नए संभावित कार्यवाही होती हैं, जिसमें 10 विरोधियों में से 1 पर हमला होता है।सुदृढीकरण सीखना चर क्रिया
उत्तर
आप क्या वर्णन असामान्य बात नहीं है। सुदृढ़ीकरण सीखना Markov Decision Process के मान फ़ंक्शन को खोजने का एक तरीका है। एक एमडीपी में, प्रत्येक राज्य के अपने कार्यों का सेट होता है। मजबूती सीखने के आवेदन के साथ आगे बढ़ने के लिए, आपको स्पष्ट रूप से परिभाषित करना होगा कि राज्य, कार्य, और पुरस्कार आपकी समस्या में क्या हैं।
आप प्रत्येक सैनिक जो उपलब्ध हैं या कुछ शर्तों के आधार पर नहीं करने के लिए कार्यों की एक संख्या है, तो आप अभी भी इस चयन के रूप में कार्रवाई की एक निश्चित सेट से मॉडल कर सकते हैं। उदाहरण के लिए:
- प्रत्येक सैनिक
- के लिए कार्रवाई का पूरा सेट से प्रत्येक के लिए एक "उपयोगिता मूल्य" बनाएँ उच्चतम मूल्य का क्रिया चुनें, उन कार्यों कि एक निश्चित समय
आप एक से अधिक संभव लक्ष्य नहीं हैं, तो भी यह सिद्धांत लागू होता है, इस बार जब आप अपने उपयोगिता समारोह मॉडल एक अतिरिक्त पैरामीटर के रूप में लक्ष्य पदनाम लेने के लिए, और चलाने के मूल्यांकन कार्य कई बार (प्रत्येक लक्ष्य के लिए एक) को छोड़कर। आप उस लक्ष्य को चुनते हैं जिसमें उच्चतम "हमला उपयोगिता" है।
- 1. सी ++ सुदृढीकरण लर्निंग लाइब्रेरी
- 2. आर पर्यावरण चर और संबंधित अवधारणाओं के बारे में सीखना
- 3. प्रोग्रामिंग भाषा अवधारणा सीखना
- 4. प्रत्येक क्रिया
- 5. सीखना F #
- 6. सीखना PostgreSQL
- 7. सीखना AspectJ
- 8. सीखना जीडब्ल्यूटी
- 9. सीखना शेयरपॉइंट
- 10. सीआईएल सीखना
- 11. जावा सीखना
- 12. सीखना ExtJS4
- 13. रेल में, क्या स्थानीय चर या आवृत्ति चर का उपयोग क्रिया विधियों
- 14. क्या कोई सक्रिय सुदृढीकरण सीखने की प्रतियोगिताओं हैं?
- 15. Global.asax Application_start प्रत्येक क्रिया
- 16. पूंछ पुनरावर्ती क्रिया OCaml
- 17. ओवरलोडिंग नियंत्रक क्रिया
- 18. क्रिया नास्तिक मिलान सिनात्रा
- 19. रेल: मैं नियंत्रक/क्रिया
- 20. WIX सी ++ कस्टम क्रिया
- 21. क्रिया/lstinline पाठ लेटेक्स
- 22. "TypeInitializationException था बिना क्रिया"
- 23. इस क्रिया-प्रकार
- 24. जावास्क्रिप्ट पुनरावर्ती क्रिया
- 25. अंग्रेजी क्रिया inflector
- 26. क्रिया = "*" क्या है?
- 27. सीखना जावास्क्रिप्ट बनाम jQuery
- 28. घर पर सीखना शेयरपॉइंट
- 29. सीखना जीसीसी आंतरिक
- 30. अपाचे ऑफबीज सीखना?
जैसा कि मैंने कहा, सैनिकों कार्यों के परिवर्तनशील भी है। हमले को एक पैरामीटर लक्ष्य बनाकर क्या मतलब है? – Cerin
मेरा मतलब है: आर एल एल्गोरिथ्म लक्ष्य या विशिष्ट कार्रवाई आपको एक अतिरिक्त इनपुट के रूप में विचार कर रहे हैं बारे में कुछ जानकारी ले सकते हैं। फिर आप इसे आवश्यकतानुसार कई लक्ष्यों और/या कार्रवाइयों पर लागू कर सकते हैं। आप बस प्रत्येक पर विचार करने के लिए अलग-अलग लक्ष्य और/या कार्रवाई जानकारी के साथ एल्गोरिदम पुनः चलाएं। – mikera