2014-04-02 7 views
13

ε-लालची नीति

मैं जानता हूँ कि क्यू-लर्निंग एल्गोरिद्म अन्वेषण और शोषण के बीच संतुलन के लिए प्रयास करना चाहिए। चूंकि मैं इस क्षेत्र में एक नौसिखिया हूं, इसलिए मैं अन्वेषण/शोषण व्यवहार का एक सरल संस्करण लागू करना चाहता था।इष्टतम एप्सिलॉन (ε-लालची) मूल्य

इष्टतम एप्सिलॉन मूल्य

मेरे कार्यान्वयन ε-लालची नीति का उपयोग करता है, लेकिन मैं एक नुकसान में हूँ जब यह एप्सिलॉन मूल्य तय करने के लिए आता है। क्या एप्लोरॉन को एल्गोरिदम ने किसी दिए गए (राज्य, क्रिया) जोड़ी का दौरा किया है, या इसे पुनरावृत्तियों की संख्या से बाध्य किया जाना चाहिए?

मेरे सुझाव:
  1. लोअर हर बार एक दिया (राज्य, कार्रवाई) जोड़ी का सामना करना पड़ा कर दिया गया है के लिए एप्सिलॉन मूल्य।
  2. पूर्ण पुनरावृत्ति के बाद ईपीएसलॉन मान कम करें।
  3. प्रत्येक बार जब हम राज्य का सामना करते हैं तो ईपीएसलॉन मान कम करें।

बहुत सराहना की!

+0

क्या आपने इस तरह से कोई प्रगति की है? क्या आपने अपने अलग-अलग सुझावों का प्रयास किया और इसे स्वीकार किए गए उत्तर से तुलना की? मैंने सकारात्मक निरंतर ईपीएसलॉन और क्षीण ईपीएसलॉन के साथ प्रयोग किया है और स्वीकार्य परिणाम प्राप्त किए हैं, लेकिन मुझे यह देखने के लिए उत्सुकता है कि वर्तमान (राज्य, क्रिया) जोड़ी की यात्राओं की संख्या के कार्य के रूप में ईपीएसलॉन होने से बेहतर परिणाम नहीं मिलेगा । यह मुझे समझता है कि एक (राज्य, कार्रवाई) जोड़ी पर विचार करते समय केवल क्षय को क्षीण करने के लिए समझ में आता है, एजेंट ने पहले से ही कई बार दौरा किया है जबकि यह एक (राज्य, कार्रवाई) जोड़ी के लिए उच्च रखता है, जो एजेंट ने अभी तक कभी नहीं देखा है। –

+0

हां, मैंने 'रीग्रेट मिनिमाइजेशन' भी कोशिश की है। यह अभिसरण दर को गति देता है, लेकिन हमेशा सर्वोत्तम समाधान खोजने में सक्षम नहीं होने की लागत पर। वास्तव में बड़ी समस्या के उदाहरणों में, मुझे अफसोस न्यूनीकरण दृष्टिकोण पसंद करना पड़ता है क्योंकि यह जल्दी से बेहतर समाधानों की खोज को मार्गदर्शन करता है – OccamsMan

उत्तर

16

हालांकि कई सरल मामलों में εk को 0 और 1 में निश्चित संख्या के रूप में रखा जाता है, आपको पता होना चाहिए कि: आमतौर पर, खोज समय के साथ कम हो जाती है, ताकि पॉलिसी असम्बद्ध रूप से लालची हो और इसलिए (क्यूके के रूप में → क्यू *) इष्टतम। यह बढ़ने के रूप में εk दृष्टिकोण 0 बनाकर हासिल किया जा सकता है। उदाहरण के लिए, फॉर्म εk = 1/k के ε-लालची अन्वेषण अनुसूची को → → के रूप में 0 तक कम कर दिया गया है, जबकि क्यू-लर्निंग की दूसरी अभिसरण स्थिति को संतुष्ट करते हुए, यानी, सभी राज्य-क्रियाओं के असीमित रूप से कई बार जाने की अनुमति देते हुए जोड़े (सिंह एट अल।, 2000)।

मैं आमतौर पर यह करता हूं: प्रारंभिक अल्फा = 1/के (प्रारंभिक के = 1 या 2) पर परीक्षण के बाद परीक्षण के बाद परीक्षण के बाद अल्फा कम हो जाएगा। यह अभिसरण की गारंटी भी रखता है।

+3

ईपीएसलॉन-क्षय के रूप में भी जाना जाता है। – danelliottster

0

आमतौर पर सकारात्मक स्थिरता के लिए ε सेट करना बुद्धिमान होता है, जब तक कि आपके पास कोई अच्छा कारण न हो।

+0

अनुभवजन्य: क्या एजेंट को अन्वेषण स्वीकार करने की संभावना कम नहीं होनी चाहिए क्योंकि क्यू वैल्यू टेबल सही संक्रमण तालिकाओं की ओर परिवर्तित हो रहा है? उदाहरण: एक खेल एजेंट को खराब चाल (अन्वेषण) चलाने के बजाए अपनी उभरती हुई संपूर्ण रणनीति को प्राथमिकता देना चाहिए। – OccamsMan

संबंधित मुद्दे