6

जहां तक ​​मुझे पता है, सीएनएन विंडो तकनीकों को स्लाइड करने पर भरोसा करता है और केवल यह संकेत दे सकता है कि दिए गए बाउंडिंग बॉक्स में कोई निश्चित पैटर्न मौजूद है या नहीं। क्या यह सच है?क्या कनवॉल्यूशनल न्यूरल नेटवर्क छवियों पर स्थानीयकरण क्षमताओं का अधिकार रखता है?

क्या कोई ऐसी तकनीकों की सहायता के बिना सीएनएन के साथ स्थानीयकरण प्राप्त कर सकता है?

उत्तर

8

छवि पहचान में एक खुली समस्या है। खिड़कियों को फिसलने के अलावा, मौजूदा दृष्टिकोणों में सीएनएन आउटपुट के रूप में छवि में ऑब्जेक्ट स्थान की भविष्यवाणी करना शामिल है, सीमाओं की भविष्यवाणी (छवि सीमा से संबंधित क्लासिफियांग पिक्सल या नहीं) और इसी तरह। उदाहरण के लिए this paper और उसमें संदर्भ देखें।

यह भी ध्यान दें कि अधिकतम पूलिंग का उपयोग कर सीएनएन के साथ, कोई व्यक्ति पहचान पहचानने में योगदान देने वाले फीचर डिटेक्टरों की स्थिति की पहचान कर सकता है, और संभावित वस्तु स्थान क्षेत्र का सुझाव देने के लिए इसका उपयोग कर सकता है।

+0

जवाब के लिए धन्यवाद! –

2

सीएनएन में वस्तुओं को स्थानीयकृत करने के लिए हाल ही की कुछ तकनीकें हैं। यह पेपर देखें http://cnnlocalization.csail.mit.edu/Zhou_Learning_Deep_Features_CVPR_2016_paper.pdf

यह ग्लोबल औसत पूलिंग (जीएपी) नामक एक परत का उपयोग करता है, और बिना अतिरिक्त काम के, सीएनएन उस ऑब्जेक्ट को स्थानीयकृत कर सकता है जिसे पहचानता है।

इसके अलावा इस वास्तव में अच्छा ब्लॉग पोस्ट चेकआउट: https://alexisbcook.github.io/2017/global-average-pooling-layers-for-object-localization/

संबंधित मुद्दे