2016-06-22 9 views
11

गहरा सुदृढीकरण सीखने और सुदृढीकरण सीखने के बीच क्या अंतर है? मैं मूल रूप से जानता हूं कि सुदृढीकरण सीखने के बारे में क्या है, लेकिन कंक्रीट शब्द गहरा इस संदर्भ में क्या खड़ा है?दीप सुदृढ़ीकरण सीखना बनाम सुदृढ़ीकरण सीखना

आपकी मदद के लिए बहुत बहुत धन्यवाद।

+1

मुझे यकीन नहीं है कि यह प्रश्न स्टैक ओवरफ़्लो के लिए एक अच्छा फिट है, यह अपेक्षाकृत व्यापक लगता है। – JAL

+1

@JAL बस जानना चाहता था कि ** गहरा ** का अर्थ इस संदर्भ में क्या है। मुझे लगता है कि आप सही हैं, लेकिन कहीं और व्यापक जवाब नहीं मिला। दिए गए उत्तर ने वास्तव में मुझे बहुत मदद की। –

उत्तर

26

सुदृढीकरण सीखना

सुदृढीकरण सीखने में, एक एजेंट के एक राज्य को देखते हुए सबसे अच्छा कार्रवाई के साथ आने की कोशिश करता है।

उदा। वीडियो गेम पीएसी-मैन में, राज्य 2 डी गेम वर्ल्ड होगा जिसमें आप हैं, आसपास के आइटम (पीएसी-डॉट्स, एननीज़, दीवार इत्यादि), और कार्रवाई उस 2 डी स्पेस के माध्यम से आगे बढ़ेगी (ऊपर/नीचे/बाएँ दांए)।

इसलिए, गेम की दुनिया की स्थिति को देखते हुए एजेंट को पुरस्कारों को अधिकतम करने के लिए सबसे अच्छी कार्रवाई करने की आवश्यकता है। मजबूती सीखने के परीक्षण और त्रुटि के माध्यम से, यह इन (state, action) जोड़े के माध्यम से "ज्ञान" जमा करता है, जैसा कि यह बता सकता है कि (state, action) जोड़ी को सकारात्मक या नकारात्मक इनाम मिलेगा या नहीं। आइए इस मान को Q(state, action) पर कॉल करें।

इस ज्ञान स्टोर करने के लिए की तरह नीचे

state | action | Q(state, action) 
--------------------------------- 
    ... | ... | ... 

(state, action) अंतरिक्ष बहुत बड़ा हो सकता है

हालांकि, जब खेल जटिल हो जाता है एक मेज होगा एक अल्पविकसित तरह से, ज्ञान अंतरिक्ष बन सकता है विशाल और अब (state, action) जोड़े को स्टोर करने के लिए संभव नहीं है। यदि आप कच्चे शब्दों में इसके बारे में सोचते हैं, तो थोड़ा अलग राज्य अभी भी एक अलग राज्य है (उदाहरण के लिए उसी गलियारे के माध्यम से दुश्मन की अलग-अलग स्थिति)। आप और को को हर छोटी विशिष्ट स्थिति को देखकर कुछ सामान्य उपयोग कर सकते हैं जो ज्ञान का सामान्य उपयोग कर सकते हैं।

तो आप क्या कर सकते हैं एक तंत्रिका नेटवर्क बनाते हैं, उदाहरण के लिए एक इनपुट (state, action) के लिए इनाम की भविष्यवाणी (या, एक राज्य को देखते हुए सबसे अच्छा कार्रवाई लेने भले ही आप भुगतान को देखने के लिए की तरह)

एक तंत्रिका नेटवर्क

साथ Q मूल्य का अनुमान तो एक क्या आप को प्रभावी ढंग से किया है एनएन "बुद्धिमान मस्तिष्क", जो (state, action) इनपुट के आधार पर Q मान की भविष्यवाणी करता है। यह तरीका अधिक ट्रैक्टेबल है जो हर संभव मूल्य को संग्रहीत करता है जैसा हमने ऊपर की तालिका में किया था।

Q = neural_network.predict(state, action) 

दीप तंत्रिका नेटवर्क

कि जटिल खेल के लिए, एनएन "गहरी" हो सकता है, कुछ छिपा परतों अर्थ सभी जटिल विवरण पर कब्जा करने के लिए पर्याप्त नहीं हो सकता है की आवश्यकता हो सकती करने के लिए सक्षम होना करने के लिए उस ज्ञान के, इसलिए गहरे एनएन (छिपे हुए परतों के बहुत सारे) का उपयोग।

अतिरिक्त छिपी हुई परतें नेटवर्क को आंतरिक रूप से उन सुविधाओं के साथ आने की अनुमति देती हैं जो जटिल समस्याओं को सीखने और सामान्यीकृत करने में मदद कर सकती हैं जो उथले नेटवर्क पर असंभव हो सकती हैं।

समापन शब्द

संक्षेप में, गहरी तंत्रिका नेटवर्क बड़ी समस्याओं के लिए लागू किया जा करने के लिए सीखने के सुदृढीकरण की अनुमति देता है। आप Q अनुमानित करने के लिए एनएन के बजाय किसी फ़ंक्शन अनुमानक का उपयोग कर सकते हैं, और यदि आप एनएन चुनते हैं, तो यह बिल्कुल गहरा होना नहीं है। हाल ही में शोधकर्ताओं ने इनका उपयोग करके बड़ी सफलता हासिल की है।

+0

आपके व्यापक उत्तर के लिए बहुत बहुत धन्यवाद। इसलिए जैसा कि मैं समझता हूं ** गहरा ** एक तंत्रिका नेटवर्क के माध्यम से क्यू के अनुमान को संदर्भित करता है और बड़े पैमाने पर सुदृढीकरण सीखने का उपयोग करने की संबंधित संभावना है। –

+2

"दीप" [डीप लर्निंग] से होगा (https://en.wikipedia.org/wiki/Deep_learning) (एकाधिक प्रोसेसिंग परतों पर जोर)। सामान्यीकृत करने के लिए, हम तर्क दे सकते हैं कि डीपी आरएल लेबल किसी भी आरएल योजना पर लागू किया जा सकता है जिसमें इसका गहरा सीखने वाला घटक है। जैसे [यह पेपर] (https://www.aaai.org/ocs/index.php/WS/AAAIW11/paper/viewFile/3898/4303) [_Deep विश्वास नेटवर्क_] का उपयोग करता है (https://en.wikipedia.org/ विकी/Deep_belief_network) अनुमानक के रूप में। इससे पहले कि आप [पूछें] (http://stats.stackexchange.com/questions/51273/what-is-the-difference-between-a-neural-network-and-a-deep-belief-network) :) – bakkal

+1

अन्य कागजात: [सुदृढ़ीकरण सीखने में दीप ऑटो-एनकोडर तंत्रिका नेटवर्क] (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.172.1873&rep=rep1&type=pdf), और शायद सबसे ज्ञात एक [ डीप सुदृढ़ीकरण सीखने के साथ अटारी बजाना] (https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf), एक गहरे (और संकल्पक) तंत्रिका नेटवर्क का उपयोग करता है। – bakkal

संबंधित मुद्दे