5

अंतिम संकल्प परत सक्रियण कार्यों के अनुसार क्षेत्र प्रस्तावों का आकार बदलते समय गणितीय रूप से क्या हो रहा है? सीएनएन के साथ ऑब्जेक्ट डिटेक्शन के बारे में following ट्यूटोरियल में तेजी से आरसीएनएन के बारे में उल्लेख किया गया है। यहां उन्होंने आरओआई परत और क्या हो रहा है के बारे में उल्लेख किया है। लेकिन मुझे समझ में नहीं आता कि प्रत्येक क्षेत्र में अंतिम conv.layer सक्रियण के लिए अपने क्षेत्र के प्रस्तावों का आकार बदलते समय गणितीय रूप से क्या होता है।तेजी से आरसीएनएन में आरओआई परत क्या है?

उत्तर

4

क्षेत्र के- ब्याज (आरओआई) पूलिंग:

यह पूलिंग परत जो अधिकतम असमान आकार और की आदानों (यहाँ, convnet सुविधा नक्शे) पर पूलिंग करता है का एक प्रकार है निश्चित आकार का एक छोटा फीचर मानचित्र बनाता है (7x7 कहें)। इस निश्चित आकार की पसंद नेटवर्क हाइपर-पैरामीटर है और इसे पूर्वनिर्धारित किया गया है।

इस तरह के पूलिंग करने का मुख्य उद्देश्य प्रशिक्षण और परीक्षण समय को तेज करना और पूरे सिस्टम को अंत तक अंत तक प्रशिक्षित करना है (संयुक्त तरीके से)।

यह पूलिंग परत के उपयोग की वजह से प्रशिक्षण & परीक्षण समय मूल (वेनिला?) आर-सीएनएन आर्किटेक्चर की तुलना में तेज़ है और इसलिए नाम फास्ट आर-सीएनएन है।

(Region of interest pooling explained by deepsense.io से) सरल उदाहरण:

Visualization of RoI Pooling

+0

यहां क्षेत्र के प्रस्तावों का अर्थ है छवि या छवि के हिस्से में पिक्सेल के साथ क्षेत्र का आकार केवल अधिकतम फ़िल्टर मानों के साथ गुणा हो जाता है? –

5

लागत पर लाभ (ब्याज की क्षेत्र) परत Fast R-CNN में पेश किया और स्थानिक पिरामिड पूलिंग परत जो Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition में शुरू की है एक विशेष मामला है है। आरओआई परत का मुख्य कार्य पूर्ण रूप से कनेक्टेड परतों में आकार की बाधा के कारण मनमाने ढंग से आकार के साथ इनपुट लंबाई को पुन: स्वरूपित करता है।

कैसे लागत पर लाभ परत नीचे से पता चला है काम करता है: 4x4 (नीला), 2x2 (हरा:

enter image description here

इस छवि में, मनमाने ढंग से आकार के साथ इनपुट छवि इस परत जो 3 अलग खिड़की है में खिलाया जाता है), एफ के लिए क्रमश: 16 x एफ, 4 एक्स एफ, और 1 एक्स एफ के निश्चित आकार के साथ आउटपुट का उत्पादन करने के लिए 1x1 (ग्रे) फ़िल्टर की संख्या है। फिर, उन आउटपुट को पूरी तरह से कनेक्टेड परत से खिलाया जाने वाला वेक्टर में संयोजित किया जाता है।

+0

आप "पूरी तरह से जुड़े परतों में आकार बाधा की वजह से" मुद्दे पर विस्तार से बता सकते हैं। चूंकि हम एफसी परत के न्यूरॉन्स में पिक्सेल मान (स्केलर) खिला रहे हैं, इसलिए इससे कोई फर्क नहीं पड़ता कि इनपुट मैट्रिक्स का आकार क्या है। – deadcode

संबंधित मुद्दे