q-learning

11गर्मी

1उत्तर

दीप सुदृढ़ीकरण सीखना बनाम सुदृढ़ीकरण सीखना

गहरा सुदृढीकरण सीखने और सुदृढीकरण सीखने के बीच क्या अंतर है? मैं मूल रूप से जानता हूं कि सुदृढीकरण सीखने के बारे में क्या है, लेकिन कंक्रीट शब्द गहरा इस संदर्भ में क्या खड़ा है? आपकी मदद के लिए बहुत ब

6गर्मी

3उत्तर

क्यू-वैल्यू में असंबद्ध वृद्धि, क्यू-लर्निंग

में एक ही कार्रवाई को दोहराने के बाद आवर्ती इनाम के परिणामस्वरूप मैं एक छोटे से आवेदन पर एक सरल क्यू-लर्निंग कार्यान्वयन के विकास की प्रक्रिया में हूं, लेकिन ऐसा कुछ है जो मुझे परेशान करता रहता है । क

16गर्मी

4उत्तर

निरंतर * एक्शन * स्पेस

के साथ काम करने के लिए क्यू-लर्निंग सामान्यीकृत करना मैं एक मजबूती सीखने की सेटिंग में कुछ कार्य करने के लिए आवश्यक माउस आंदोलनों को सीखने के लिए एजेंट प्राप्त करने की कोशिश कर रहा हूं (यानी इनाम सिग्

19गर्मी

2उत्तर

क्यों मेरी गहरी Q नेटवर्क एक सरल Gridworld (Tensorflow) गुरु नहीं करता है?

मैं क्यू सीखने और दीप तंत्रिका नेटवर्क के साथ अपने आप को परिचित करने की कोशिश (कैसे एक दीप-क्यू-नेट का मूल्यांकन करने के लिए), वर्तमान में Playing Atari with Deep Reinforcement Learning लागू करने के ल

13गर्मी

1उत्तर

मजबूती सीखने के कार्यक्रम में सक्रियण के बिना टेन्सफोर्लो ऑप्टिमाइज़र का उपयोग कैसे करें जो प्रत्येक पुनरावृत्ति के बाद नियंत्रण लौटाता है?

संपादित करें (1/3/16): corresponding github issue मैं समारोह सन्निकटन के साथ एक क्यू-लर्निंग एजेंट को लागू करने के Tensorflow (अजगर इंटरफेस) का उपयोग कर रहा स्टोकेस्टिक ढाल-वंश का उपयोग कर प्रशिक्षित

13गर्मी

2उत्तर

इष्टतम एप्सिलॉन (ε-लालची) मूल्य

ε-लालची नीति मैं जानता हूँ कि क्यू-लर्निंग एल्गोरिद्म अन्वेषण और शोषण के बीच संतुलन के लिए प्रयास करना चाहिए। चूंकि मैं इस क्षेत्र में एक नौसिखिया हूं, इसलिए मैं अन्वेषण/शोषण व्यवहार का एक सरल संस्करण