2013-02-17 15 views
18

गहरी शिक्षा और गहरे विश्वास नेटवर्क पर कुछ कागजात पढ़ने के बाद, मुझे यह पता चला कि यह कैसे काम करता है। लेकिन अभी भी अंतिम चरण, यानी, वर्गीकरण चरण से अटक गया। पीढ़ी के साथ इंटरनेट सौदे पर मिले अधिकांश कार्यान्वयन। (एमएनआईएसटी अंक)छवि वर्गीकरण के लिए गहरी शिक्षा

क्या कुछ स्पष्टीकरण (या कोड) कहीं उपलब्ध है जो डीबीएन का उपयोग कर छवियों (अधिमानतः प्राकृतिक छवियों या वस्तुओं) वर्गीकृत करने के बारे में बात करता है?

इसके अलावा दिशा में कुछ पॉइंटर्स वास्तव में सहायक होंगे।

+0

क्रॉस मान्य पर इस उत्तर को देखें: http://stats.stackexchange.com/a/41201/14673 –

+0

यह प्रश्न पारित http://stats.stackexchange.com/questions/41029/restricted-boltzmann- मशीनों के लिए प्रतिगमन/41201 # 41201 – lejlot

उत्तर

2

आपको पीढ़ी के लिए उपयोग किए गए नेटवर्क के शीर्ष पर सॉफ्टमैक्स परत (http://en.wikipedia.org/wiki/Softmax_activation_function) का उपयोग करना चाहिए, और अंतिम नेटवर्क को ठीक ट्यून करने के लिए बैकप्रोपैगेशन का उपयोग करना चाहिए।

24

मूल विचार

इन दिनों, राज्य के अत्याधुनिक छवि वर्गीकरण समस्याओं के लिए गहरी सीखने (जैसे ImageNet) आमतौर पर "गहरी convolutional तंत्रिका नेटवर्क" (दीप ConvNets) कर रहे हैं। वे Krizhevsky et al द्वारा इस ConvNet विन्यास की तरह मोटे तौर पर देखने के लिए: enter image description here

निष्कर्ष के लिए (वर्गीकरण) आपको बाईं ओर में एक छवि (सूचना है कि बाईं ओर गहराई 3 है, आरजीबी के लिए) फ़ीड, संकट संकल्प फ़िल्टर की एक श्रृंखला के माध्यम से, और यह दाईं ओर एक 1000-आयामी वेक्टर थूकता है। यह तस्वीर विशेष रूप से इमेजनेट के लिए है, जो छवियों की 1000 श्रेणियों को वर्गीकृत करने पर केंद्रित है, इसलिए 1000 डी वेक्टर "यह छवि कितनी संभावना है कि यह छवि श्रेणी में फिट बैठती है।"

प्रशिक्षण तंत्रिका नेट केवल थोड़ा अधिक जटिल है। प्रशिक्षण के लिए, आप मूल रूप से कक्षा में वर्गीकरण फ़िल्टर को बेहतर बनाने के लिए बार-बार वर्गीकरण चलाते हैं, और हर बार आप बैकप्रोपैगेशन (एंड्रयू एनजी के व्याख्यान देखें) करते हैं। असल में, बैकप्रोपैगेशन पूछता है "नेटवर्क सही तरीके से/गलत तरीके से वर्गीकृत करता है? गलत वर्गीकृत सामान के लिए, नेटवर्क को थोड़ा सा ठीक करें।"


कार्यान्वयन

Caffe एक बहुत तेजी से गहरी convolutional तंत्रिका नेटवर्क का खुला स्रोत कार्यान्वयन (Krizhevsky एट अल से cuda-convnet तेजी से) है। कैफे कोड पढ़ने के लिए बहुत आसान है; मूल रूप से एक सी ++ फ़ाइल प्रति प्रकार की नेटवर्क परत (उदा। संकल्पक परतें, अधिकतम-पूलिंग परतें आदि) है।

2

आजकल लोग वर्गीकरण परत में एसवीएम का उपयोग शुरू करते हैं।

दीप सीखना बहुत स्वतंत्र और व्यापक रूप से विकसित हो रहा है।

संबंधित मुद्दे