ε-लालची नीति

मैं जानता हूँ कि क्यू-लर्निंग एल्गोरिद्म अन्वेषण और शोषण के बीच संतुलन के लिए प्रयास करना चाहिए। चूंकि मैं इस क्षेत्र में एक नौसिखिया हूं, इसलिए मैं अन्वेषण/शोषण व्यवहार का एक सरल संस्करण लागू करना चाहता था।इष्टतम एप्सिलॉन (ε-लालची) मूल्य

इष्टतम एप्सिलॉन मूल्य

मेरे कार्यान्वयन ε-लालची नीति का उपयोग करता है, लेकिन मैं एक नुकसान में हूँ जब यह एप्सिलॉन मूल्य तय करने के लिए आता है। क्या एप्लोरॉन को एल्गोरिदम ने किसी दिए गए (राज्य, क्रिया) जोड़ी का दौरा किया है, या इसे पुनरावृत्तियों की संख्या से बाध्य किया जाना चाहिए?

मेरे सुझाव:

लोअर हर बार एक दिया (राज्य, कार्रवाई) जोड़ी का सामना करना पड़ा कर दिया गया है के लिए एप्सिलॉन मूल्य।
पूर्ण पुनरावृत्ति के बाद ईपीएसलॉन मान कम करें।
प्रत्येक बार जब हम राज्य का सामना करते हैं तो ईपीएसलॉन मान कम करें।

बहुत सराहना की!

स्रोत

2014-04-02 OccamsMan

क्या आपने इस तरह से कोई प्रगति की है? क्या आपने अपने अलग-अलग सुझावों का प्रयास किया और इसे स्वीकार किए गए उत्तर से तुलना की? मैंने सकारात्मक निरंतर ईपीएसलॉन और क्षीण ईपीएसलॉन के साथ प्रयोग किया है और स्वीकार्य परिणाम प्राप्त किए हैं, लेकिन मुझे यह देखने के लिए उत्सुकता है कि वर्तमान (राज्य, क्रिया) जोड़ी की यात्राओं की संख्या के कार्य के रूप में ईपीएसलॉन होने से बेहतर परिणाम नहीं मिलेगा । यह मुझे समझता है कि एक (राज्य, कार्रवाई) जोड़ी पर विचार करते समय केवल क्षय को क्षीण करने के लिए समझ में आता है, एजेंट ने पहले से ही कई बार दौरा किया है जबकि यह एक (राज्य, कार्रवाई) जोड़ी के लिए उच्च रखता है, जो एजेंट ने अभी तक कभी नहीं देखा है। –

हां, मैंने 'रीग्रेट मिनिमाइजेशन' भी कोशिश की है। यह अभिसरण दर को गति देता है, लेकिन हमेशा सर्वोत्तम समाधान खोजने में सक्षम नहीं होने की लागत पर। वास्तव में बड़ी समस्या के उदाहरणों में, मुझे अफसोस न्यूनीकरण दृष्टिकोण पसंद करना पड़ता है क्योंकि यह जल्दी से बेहतर समाधानों की खोज को मार्गदर्शन करता है – OccamsMan

हालांकि कई सरल मामलों में εk को 0 और 1 में निश्चित संख्या के रूप में रखा जाता है, आपको पता होना चाहिए कि: आमतौर पर, खोज समय के साथ कम हो जाती है, ताकि पॉलिसी असम्बद्ध रूप से लालची हो और इसलिए (क्यूके के रूप में → क्यू *) इष्टतम। यह बढ़ने के रूप में εk दृष्टिकोण 0 बनाकर हासिल किया जा सकता है। उदाहरण के लिए, फॉर्म εk = 1/k के ε-लालची अन्वेषण अनुसूची को → → के रूप में 0 तक कम कर दिया गया है, जबकि क्यू-लर्निंग की दूसरी अभिसरण स्थिति को संतुष्ट करते हुए, यानी, सभी राज्य-क्रियाओं के असीमित रूप से कई बार जाने की अनुमति देते हुए जोड़े (सिंह एट अल।, 2000)।

मैं आमतौर पर यह करता हूं: प्रारंभिक अल्फा = 1/के (प्रारंभिक के = 1 या 2) पर परीक्षण के बाद परीक्षण के बाद परीक्षण के बाद अल्फा कम हो जाएगा। यह अभिसरण की गारंटी भी रखता है।

स्रोत

2014-04-07 21:05:48 NKN

ईपीएसलॉन-क्षय के रूप में भी जाना जाता है। – danelliottster

आमतौर पर सकारात्मक स्थिरता के लिए ε सेट करना बुद्धिमान होता है, जब तक कि आपके पास कोई अच्छा कारण न हो।

स्रोत

2014-04-02 09:37:01

अनुभवजन्य: क्या एजेंट को अन्वेषण स्वीकार करने की संभावना कम नहीं होनी चाहिए क्योंकि क्यू वैल्यू टेबल सही संक्रमण तालिकाओं की ओर परिवर्तित हो रहा है? उदाहरण: एक खेल एजेंट को खराब चाल (अन्वेषण) चलाने के बजाए अपनी उभरती हुई संपूर्ण रणनीति को प्राथमिकता देना चाहिए। – OccamsMan

इष्टतम एप्सिलॉन (ε-लालची) मूल्य

ε-लालची नीति

उत्तर

संबंधित मुद्दे