इनपुट परत पर एकाधिक चैनल मौजूद होने पर संकल्प संचालन कैसा होता है? (उदाहरण के लिए आरजीबी)कनवॉल्यूशनल न्यूरल नेटवर्क - एकाधिक चैनल
सीएनएन के आर्किटेक्चर/कार्यान्वयन पर कुछ पढ़ने के बाद मैं समझता हूं कि एक फीचर मैप में प्रत्येक न्यूरॉन कर्नेल आकार द्वारा परिभाषित छवि के एनएक्सएम पिक्सल को संदर्भित करता है। प्रत्येक पिक्सेल को फीचर मैप्स द्वारा एनएक्सएम वेट सेट (कर्नेल/फ़िल्टर), संक्षेप में, और एक सक्रियण समारोह में इनपुट सीखा जाता है। एक साधारण ग्रे पैमाने छवि के लिए, मैं कल्पना आपरेशन कुछ निम्नलिखित छद्म कोड का पालन करना होगा:
for i in range(0, image_width-kernel_width+1):
for j in range(0, image_height-kernel_height+1):
for x in range(0, kernel_width):
for y in range(0, kernel_height):
sum += kernel[x,y] * image[i+x,j+y]
feature_map[i,j] = act_func(sum)
sum = 0.0
हालांकि मुझे समझ नहीं आता कि कैसे इस मॉडल कई चैनलों को संभालने के लिए विस्तार करने के लिए। क्या प्रति फ़ीचर मैप के लिए तीन अलग-अलग वजन सेट आवश्यक हैं, प्रत्येक रंग के बीच साझा किया जाता है?
इस ट्यूटोरियल के 'साझा वजन' अनुभाग का संदर्भ: http://deeplearning.net/tutorial/lenet.html एक विशेषता मानचित्र में प्रत्येक न्यूरॉन अलग-अलग न्यूरॉन्स से संदर्भित रंगों के साथ परत एम -1 का संदर्भ देता है। मैं उन संबंधों को समझ नहीं पा रहा हूं जो वे यहां व्यक्त कर रहे हैं। न्यूरॉन्स कर्नेल या पिक्सेल हैं और वे छवि के अलग-अलग हिस्सों का संदर्भ क्यों देते हैं?
मेरे उदाहरण के आधार पर, ऐसा लगता है कि एक न्यूरॉन्स कर्नेल एक छवि में किसी विशेष क्षेत्र के लिए विशिष्ट है। उन्होंने कई क्षेत्रों में आरजीबी घटक क्यों विभाजित किया है?
मैं इस प्रश्न को ऑफ-विषय के रूप में बंद करने के लिए मतदान कर रहा हूं क्योंकि यह आंकड़ों से संबंधित है। स्टैक एक्सचेंज – jopasserat