के साथ काम करने के लिए क्यू-लर्निंग सामान्यीकृत करना मैं एक मजबूती सीखने की सेटिंग में कुछ कार्य करने के लिए आवश्यक माउस आंदोलनों को सीखने के लिए एजेंट प्राप्त करने की कोशिश कर रहा हूं (यानी इनाम सिग्नल एकमात्र प्रतिक्रिया है सीख रहा हूँ)।निरंतर * एक्शन * स्पेस
मैं क्यू-लर्निंग तकनीक का उपयोग करने की उम्मीद कर रहा हूं, लेकिन मुझे a way to extend this method to continuous state spaces मिल गया है, लेकिन मुझे यह पता लगाना प्रतीत नहीं होता कि निरंतर कार्यस्थल के साथ किसी समस्या को कैसे समायोजित किया जाए।
मैं बस सभी माउस आंदोलन को एक निश्चित परिमाण के होने के लिए मजबूर कर सकता हूं और केवल कुछ निश्चित दिशाओं में, लेकिन कार्यों को अलग करने का कोई भी उचित तरीका एक बड़ी क्रिया स्थान उत्पन्न करेगा। चूंकि मानक क्यू-लर्निंग के लिए एजेंट को सभी संभावित कार्रवाइयों का मूल्यांकन करने की आवश्यकता होती है, ऐसे अनुमान किसी भी व्यावहारिक अर्थ में समस्या का समाधान नहीं करते हैं।
ओह वाह, उन दोनों ध्वनि स्पॉट-ऑन। मैं उनका परीक्षण करूँगा और अपना उत्तर स्वीकार करूँगा यदि वे काम करते हैं तो मैं उम्मीद करता हूं कि वे करेंगे। – zergylord