16

के साथ काम करने के लिए क्यू-लर्निंग सामान्यीकृत करना मैं एक मजबूती सीखने की सेटिंग में कुछ कार्य करने के लिए आवश्यक माउस आंदोलनों को सीखने के लिए एजेंट प्राप्त करने की कोशिश कर रहा हूं (यानी इनाम सिग्नल एकमात्र प्रतिक्रिया है सीख रहा हूँ)।निरंतर * एक्शन * स्पेस

मैं क्यू-लर्निंग तकनीक का उपयोग करने की उम्मीद कर रहा हूं, लेकिन मुझे a way to extend this method to continuous state spaces मिल गया है, लेकिन मुझे यह पता लगाना प्रतीत नहीं होता कि निरंतर कार्यस्थल के साथ किसी समस्या को कैसे समायोजित किया जाए।

मैं बस सभी माउस आंदोलन को एक निश्चित परिमाण के होने के लिए मजबूर कर सकता हूं और केवल कुछ निश्चित दिशाओं में, लेकिन कार्यों को अलग करने का कोई भी उचित तरीका एक बड़ी क्रिया स्थान उत्पन्न करेगा। चूंकि मानक क्यू-लर्निंग के लिए एजेंट को सभी संभावित कार्रवाइयों का मूल्यांकन करने की आवश्यकता होती है, ऐसे अनुमान किसी भी व्यावहारिक अर्थ में समस्या का समाधान नहीं करते हैं।

उत्तर

7

इस समस्या से निपटने का सामान्य तरीका actor-critic methods के साथ है। ये स्वाभाविक रूप से निरंतर कार्यस्थलों तक बढ़ते हैं। सिक्योरिटीज के साथ काम करते समय बेसिक क्यू-लर्निंग अलग हो सकती है, हालांकि, यदि आप अभी भी इसका उपयोग करना चाहते हैं, तो आप इसे "Applications of the self-organising map to reinforcement learning" में किए गए एक स्व-आयोजन मानचित्र के साथ संयोजन करने का प्रयास कर सकते हैं। पेपर में कुछ और संदर्भ भी शामिल हैं जो आपको उपयोगी लग सकते हैं।

+0

ओह वाह, उन दोनों ध्वनि स्पॉट-ऑन। मैं उनका परीक्षण करूँगा और अपना उत्तर स्वीकार करूँगा यदि वे काम करते हैं तो मैं उम्मीद करता हूं कि वे करेंगे। – zergylord

3

आप जो कर रहे हैं उसके लिए मुझे विश्वास नहीं है कि आपको निरंतर कार्यस्थलों में काम करने की आवश्यकता है। यद्यपि भौतिक माउस निरंतर स्थान पर चलता है, आंतरिक रूप से कर्सर केवल अलग-अलग चरणों (आमतौर पर पिक्सेल स्तर पर) में चलता है, इसलिए इस दहलीज के ऊपर कोई सटीकता प्राप्त करने से ऐसा लगता है कि इसका आपके एजेंट के प्रदर्शन पर कोई प्रभाव नहीं पड़ेगा। राज्य की जगह अभी भी काफी बड़ी है, लेकिन यह सीमित और अलग है।

+0

यह असीमित अनुमानों के संबंध में मैंने जो समस्या का उल्लेख किया है (हालांकि मुझे एहसास है कि मेरा डोमेन तकनीकी रूप से शुरू करने के लिए अलग है), जो कि संभव है कि प्रत्येक संभावित समन्वय जोड़ी को संभावित कार्रवाई के रूप में सोचने के लिए असंभव है। – zergylord

+0

मैं @templatetypedef से सहमत हूं। आप निरंतर राज्य स्थान के साथ अलग-अलग कार्रवाइयों का उपयोग कर सकते हैं। काम करने के लिए अलग-अलग क्रियाएं बहुत अच्छी हैं। – danelliottster

9

निरंतर कार्यों के लिए मजबूती सीखने के कई तरीके हैं। एक तरीका अभिनेता-आलोचक तरीकों का उपयोग करना है। नीति ढाल विधियों का उपयोग करने का एक और तरीका है।

विभिन्न तरीकों की एक नहीं बल्कि वृहद व्याख्या निम्नलिखित कागज, ऑनलाइन उपलब्ध है, जिसमें पाया जा सकता है: Reinforcement Learning in Continuous State and Action Spaces

+1

अभिनेता-आलोचक विधियां पॉलिसी ढाल विधियों का एक प्रकार हैं। अभिनेता, जिसे पैरामीटर किया गया है, नीति लागू करता है, और पैरामीटर को अभिनेता के प्रदर्शन के ढाल की दिशा में स्थानांतरित किया जाता है, जिसका अनुमान आलोचक होता है। – HelloGoodbye

+0

दिया गया लिंक अब टूट गया है। –

+0

टूटा हुआ लिंक "हैससेट" कहता है, तो शायद यह यह था: http://oai.cwi.nl/oai/asset/19689/19689B.pdf – dasWesen

11

इस साल के लिए फास्ट आगे, DeepMind से लोगों की गहरी निपटने के लिए अभिनेता-आलोचक विधि सीखने सुदृढीकरण का प्रस्ताव दोनों निरंतर राज्य और क्रिया स्थान के साथ। यह निर्धारिती नीति ढाल नामक तकनीक पर आधारित है। पेपर Continuous control with deep reinforcement learning और कुछ implementations देखें।

+4

हाँ, वे वास्तव में सुदृढ़ीकरण सीखने में लोकप्रिय रहा है - अब निरंतर कार्यों को संभालने के कुछ तरीके हैं! सबसे प्रासंगिक मैं मानता हूं कि सामान्यीकृत लाभ कार्यों के साथ क्यू-लर्निंग है, क्योंकि यह उसके दिल में एक ही क्यू-लर्निंग एल्गोरिदम है।यह केवल क्रिया मानों को एक वर्गबद्ध रूप के रूप में मजबूर करता है, जिससे आप लालची कार्रवाई को विश्लेषणात्मक रूप से प्राप्त कर सकते हैं। https://arxiv.org/pdf/1603.00748.pdf – zergylord

+0

आप अटारी पेपर https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf – Shaun

+0

भी देखना चाहते हैं यह अद्भुत था। धन्यवाद। –

संबंधित मुद्दे