16

इनपुट परत पर एकाधिक चैनल मौजूद होने पर संकल्प संचालन कैसा होता है? (उदाहरण के लिए आरजीबी)कनवॉल्यूशनल न्यूरल नेटवर्क - एकाधिक चैनल

सीएनएन के आर्किटेक्चर/कार्यान्वयन पर कुछ पढ़ने के बाद मैं समझता हूं कि एक फीचर मैप में प्रत्येक न्यूरॉन कर्नेल आकार द्वारा परिभाषित छवि के एनएक्सएम पिक्सल को संदर्भित करता है। प्रत्येक पिक्सेल को फीचर मैप्स द्वारा एनएक्सएम वेट सेट (कर्नेल/फ़िल्टर), संक्षेप में, और एक सक्रियण समारोह में इनपुट सीखा जाता है। एक साधारण ग्रे पैमाने छवि के लिए, मैं कल्पना आपरेशन कुछ निम्नलिखित छद्म कोड का पालन करना होगा:

for i in range(0, image_width-kernel_width+1): 
    for j in range(0, image_height-kernel_height+1): 
     for x in range(0, kernel_width): 
      for y in range(0, kernel_height): 
       sum += kernel[x,y] * image[i+x,j+y] 

     feature_map[i,j] = act_func(sum) 
     sum = 0.0 

हालांकि मुझे समझ नहीं आता कि कैसे इस मॉडल कई चैनलों को संभालने के लिए विस्तार करने के लिए। क्या प्रति फ़ीचर मैप के लिए तीन अलग-अलग वजन सेट आवश्यक हैं, प्रत्येक रंग के बीच साझा किया जाता है?

इस ट्यूटोरियल के 'साझा वजन' अनुभाग का संदर्भ: http://deeplearning.net/tutorial/lenet.html एक विशेषता मानचित्र में प्रत्येक न्यूरॉन अलग-अलग न्यूरॉन्स से संदर्भित रंगों के साथ परत एम -1 का संदर्भ देता है। मैं उन संबंधों को समझ नहीं पा रहा हूं जो वे यहां व्यक्त कर रहे हैं। न्यूरॉन्स कर्नेल या पिक्सेल हैं और वे छवि के अलग-अलग हिस्सों का संदर्भ क्यों देते हैं?

मेरे उदाहरण के आधार पर, ऐसा लगता है कि एक न्यूरॉन्स कर्नेल एक छवि में किसी विशेष क्षेत्र के लिए विशिष्ट है। उन्होंने कई क्षेत्रों में आरजीबी घटक क्यों विभाजित किया है?

+0

मैं इस प्रश्न को ऑफ-विषय के रूप में बंद करने के लिए मतदान कर रहा हूं क्योंकि यह आंकड़ों से संबंधित है। स्टैक एक्सचेंज – jopasserat

उत्तर

27

इनपुट परत पर एकाधिक चैनल मौजूद होने पर संकल्प संचालन कैसा होता है? (उदाहरण के लिए आरजीबी)

इस तरह के एक मामले में आप इनपुट चैनल प्रति एक 2 डी गिरी (विमान a.k.a) है।

तो आप प्रत्येक रूपांतरण (2 डी इनपुट, 2 डी कर्नेल) अलग से करते हैं और आप योगदान योगदान करते हैं जो अंतिम आउटपुट सुविधा मानचित्र देता है।

Marc'Aurelio Ranzato द्वारा स्लाइड इस CVPR 2014 tutorial के 64 का संदर्भ लें:

enter image description here

तीन अलग-अलग वजन विशेषता मानचित्र के अनुसार आवश्यक सेट, प्रत्येक रंग के बीच साझा कर रहे हैं?

यदि आप किसी दिए गए आउटपुट फीचर मैप पर विचार करते हैं, तो आपके पास 3 x 2D कर्नेल (यानी एक इनपुट प्रति इनपुट चैनल) है। प्रत्येक 2 डी कर्नेल पूरे इनपुट चैनल (आर, जी, या बी) के साथ समान वजन साझा करता है।

तो संपूर्ण संक्रामक परत एक 4 डी-टेंसर (एनबी इनपुट विमान x एनबी आउटपुट विमान x कर्नेल चौड़ाई x कर्नेल ऊंचाई) है।

उन्होंने कई क्षेत्रों में आरजीबी घटक क्यों विभाजित किया है?

अपने समर्पित 2D कर्नेल के साथ एक अलग इनपुट विमान के रूप में प्रत्येक आर, जी के थिंक और बी चैनल ऊपर विस्तृत रूप में।

+0

2 डी रूपांतरण कर्नेल सभी तीन चैनलों में साझा नहीं किया गया है?थॉट कन्फ लेयर एक 1 * conv_kernel_num * kernel_width * kernel_height टेंसर है। यदि रूपांतरण कर्नेल चैनलों के बीच साझा नहीं किया गया है, तो क्या मैं conv कर्नेल को kernel_width * kernel_height * channel_num (3 इस मामले में) टेंसर के रूप में व्याख्या कर सकता हूं? – user2696499

संबंधित मुद्दे