7

हाल ही में मैं तंत्रिका नेटवर्क के साथ क्यू-लर्निंग के बारे में बहुत कुछ पढ़ रहा हूं और एक साधारण फ़ीड- कई संवेदी इनपुट से आउटपुट अनुमानित आगे तंत्रिका नेटवर्क। आउटपुट तब एक रैखिक मॉडल-आधारित नियंत्रक से जुड़ा होता है जो किसी भी तरह से फिर से एक इष्टतम कार्रवाई आउटपुट करता है ताकि पूरा मॉडल वांछित लक्ष्य में परिवर्तित हो सके।तंत्रिका नेटवर्क

रैखिक मॉडल की पहचान करना एक उपभोग करने वाला कार्य है। मैंने क्यू-फ़ंक्शन के एक तंत्रिका नेटवर्क के अनुमान के साथ मॉडल-मुक्त क्यू-लर्निंग के लिए पूरी चीज़ को नवीनीकृत करने के बारे में सोचा। मैंने आपको यह पूछने के लिए एक चित्र खींचा कि क्या मैं सही रास्ते पर हूं या नहीं।

model

मेरा प्रश्न: अगर आपको लगता है कि मैं अच्छी तरह से समझ अवधारणा, मेरे प्रशिक्षण सेट एक तरफ और Q_target - Q_current आदेश के लिए मजबूर करने में (यहाँ मैं वहाँ एक बढ़ती हुई इनाम है यह सोचते हैं रहा हूँ) से State Features vectors से बना होना चाहिए लक्ष्य के प्रति पूरा मॉडल या क्या मुझे कुछ याद आ रही है?

नोट: आरेख ऊपरी हिस्से में पुरानी प्रणाली और निचले हिस्से में मेरे प्रस्तावित परिवर्तन के बीच तुलना दिखाता है।

संपादित करें: क्या एक राज्य तंत्रिका नेटवर्क अनुभव रीप्ले की गारंटी देता है?

उत्तर

1

आप वर्तमान स्थिति में सभी कार्यों के सभी क्यू मान का उपयोग अपने नेटवर्क में आउटपुट परत के रूप में कर सकते हैं। एक खराब खींचा गया चित्र here

इसलिए आप एक समय में कई क्यू मान आउटपुट करने की एनएन की क्षमता की सलाह ले सकते हैं। फिर, Q(s, a) <- Q(s, a) + alpha * (reward + discount * max(Q(s', a')) - Q(s, a) द्वारा व्युत्पन्न हानि का उपयोग करके बस वापस प्रोप, जहां max(Q(s', a')) आउटपुट परत से आसानी से गणना की जा सकती है।

यदि आपके पास और प्रश्न हैं तो कृपया मुझे बताएं।

संबंधित मुद्दे