ε-लालची नीति
मैं जानता हूँ कि क्यू-लर्निंग एल्गोरिद्म अन्वेषण और शोषण के बीच संतुलन के लिए प्रयास करना चाहिए। चूंकि मैं इस क्षेत्र में एक नौसिखिया हूं, इसलिए मैं अन्वेषण/शोषण व्यवहार का एक सरल संस्करण लागू करना चाहता था।इष्टतम एप्सिलॉन (ε-लालची) मूल्य
इष्टतम एप्सिलॉन मूल्यमेरे कार्यान्वयन ε-लालची नीति का उपयोग करता है, लेकिन मैं एक नुकसान में हूँ जब यह एप्सिलॉन मूल्य तय करने के लिए आता है। क्या एप्लोरॉन को एल्गोरिदम ने किसी दिए गए (राज्य, क्रिया) जोड़ी का दौरा किया है, या इसे पुनरावृत्तियों की संख्या से बाध्य किया जाना चाहिए?
मेरे सुझाव:- लोअर हर बार एक दिया (राज्य, कार्रवाई) जोड़ी का सामना करना पड़ा कर दिया गया है के लिए एप्सिलॉन मूल्य।
- पूर्ण पुनरावृत्ति के बाद ईपीएसलॉन मान कम करें।
- प्रत्येक बार जब हम राज्य का सामना करते हैं तो ईपीएसलॉन मान कम करें।
बहुत सराहना की!
क्या आपने इस तरह से कोई प्रगति की है? क्या आपने अपने अलग-अलग सुझावों का प्रयास किया और इसे स्वीकार किए गए उत्तर से तुलना की? मैंने सकारात्मक निरंतर ईपीएसलॉन और क्षीण ईपीएसलॉन के साथ प्रयोग किया है और स्वीकार्य परिणाम प्राप्त किए हैं, लेकिन मुझे यह देखने के लिए उत्सुकता है कि वर्तमान (राज्य, क्रिया) जोड़ी की यात्राओं की संख्या के कार्य के रूप में ईपीएसलॉन होने से बेहतर परिणाम नहीं मिलेगा । यह मुझे समझता है कि एक (राज्य, कार्रवाई) जोड़ी पर विचार करते समय केवल क्षय को क्षीण करने के लिए समझ में आता है, एजेंट ने पहले से ही कई बार दौरा किया है जबकि यह एक (राज्य, कार्रवाई) जोड़ी के लिए उच्च रखता है, जो एजेंट ने अभी तक कभी नहीं देखा है। –
हां, मैंने 'रीग्रेट मिनिमाइजेशन' भी कोशिश की है। यह अभिसरण दर को गति देता है, लेकिन हमेशा सर्वोत्तम समाधान खोजने में सक्षम नहीं होने की लागत पर। वास्तव में बड़ी समस्या के उदाहरणों में, मुझे अफसोस न्यूनीकरण दृष्टिकोण पसंद करना पड़ता है क्योंकि यह जल्दी से बेहतर समाधानों की खोज को मार्गदर्शन करता है – OccamsMan