हाल ही में मैं तंत्रिका नेटवर्क के साथ क्यू-लर्निंग के बारे में बहुत कुछ पढ़ रहा हूं और एक साधारण फ़ीड- कई संवेदी इनपुट से आउटपुट अनुमानित आगे तंत्रिका नेटवर्क। आउटपुट तब एक रैखिक मॉडल-आधारित नियंत्रक से जुड़ा होता है जो किसी भी तरह से फिर से एक इष्टतम कार्रवाई आउटपुट करता है ताकि पूरा मॉडल वांछित लक्ष्य में परिवर्तित हो सके।तंत्रिका नेटवर्क
रैखिक मॉडल की पहचान करना एक उपभोग करने वाला कार्य है। मैंने क्यू-फ़ंक्शन के एक तंत्रिका नेटवर्क के अनुमान के साथ मॉडल-मुक्त क्यू-लर्निंग के लिए पूरी चीज़ को नवीनीकृत करने के बारे में सोचा। मैंने आपको यह पूछने के लिए एक चित्र खींचा कि क्या मैं सही रास्ते पर हूं या नहीं।
मेरा प्रश्न: अगर आपको लगता है कि मैं अच्छी तरह से समझ अवधारणा, मेरे प्रशिक्षण सेट एक तरफ और Q_target - Q_current
आदेश के लिए मजबूर करने में (यहाँ मैं वहाँ एक बढ़ती हुई इनाम है यह सोचते हैं रहा हूँ) से State Features vectors
से बना होना चाहिए लक्ष्य के प्रति पूरा मॉडल या क्या मुझे कुछ याद आ रही है?
नोट: आरेख ऊपरी हिस्से में पुरानी प्रणाली और निचले हिस्से में मेरे प्रस्तावित परिवर्तन के बीच तुलना दिखाता है।
संपादित करें: क्या एक राज्य तंत्रिका नेटवर्क अनुभव रीप्ले की गारंटी देता है?