9

मान लें कि मेरे पास एक छोटा सा बिटमैप है जिसमें हाथ लेखन में एक अंक (0..9) होता है।हाथ से लिखे गए अंकों का पता लगाने के लिए एक परसेप्ट्रॉन का उपयोग किया जा सकता है?

क्या एक (दो-स्तरित) perceptron का उपयोग कर अंक का पता लगाना संभव है?

क्या तंत्रिका जाल का उपयोग करने के अलावा बिटमैप्स से एकल अंकों का पता लगाने की अन्य संभावनाएं हैं?

उत्तर

8

बिट्रैप के प्रत्येक पिक्सेल को सीधे एक तंत्रिका नेटवर्क में खिलाकर बहुत सारे प्रशिक्षण की आवश्यकता होगी, और छवि के स्केलिंग या रोटेशन को संभालने के लिए अच्छा काम नहीं करेगा।

तंत्रिका नेटवर्क को अच्छी वर्गीकरण करने में मदद करने के लिए, आपको कुछ प्रीप्रोसेसिंग चरणों को करने की आवश्यकता है।

  • छवि सामान्यीकृत करें:
    • ताकि छवि के हिस्टोग्राम एक संदर्भ छवि से मेल खाता है कंट्रास्ट और चमक को समायोजित करें।
    • शोर को हटाने के लिए छवि को धुंधला करें।
    • इसे कुछ थ्रेसहोल्ड का उपयोग करके काले & सफेद में परिवर्तित करें।
    • आकार के बाध्यकारी बॉक्स को ढूंढें, एक पूर्वनिर्धारित आकार के पैमाने पर।
  • की गणना छवि है कि एक-दूसरे अंकों अंतर करने के लिए इस्तेमाल किया जा सकता की विभिन्न सुविधाओं:
    • छवि — की Euler number है कि कितने "छेद" आकार में (उदाहरण के लिए दो छेद देखते हैं अंक 8 के लिए)।
    • सफेद पिक्सेल की संख्या (अंकों के क्षेत्र)
    • सफेद पिक्सल — के निर्देशांक के सेट की principal components आपको बताता है कि "लंबाई" आकार है।
    • ... अन्य विशेषताएं जो आप सोच सकते हैं कि समान अंकों के समान मान हैं।

प्रमुख घटक भी आकार के रोटेशन को सामान्य बनाने, ताकि लंबे समय तक अक्ष खड़ी है इस्तेमाल किया जा सकता।

विशेषताएं आप वर्गीकरण के लिए तंत्रिका नेटवर्क में फ़ीड करते हैं, पिक्सेल नहीं।

+1

मैंने वास्तव में एक समान कार्य करने के लिए तंत्रिका नेटवर्क का उपयोग करने की कोशिश की है, और मैंने पाया (अब तक) यह बेहतर काम करता है अगर मैं गणना करने और नेटवर्क को उन गणनाओं को देने के बजाय नेटवर्क पर वास्तविक पिक्सल देता हूं।अनुमोदित, मैंने इनपुट के रूप में अच्छी गणना नहीं की हो सकती है। लेकिन अब तक यह उनके बिना दृढ़ता से काम करता है कि छवि सामान्य रूप से पर्याप्त सामान्य है। – Phil

8

यहां हस्तलिखित अंकों के विशाल डेटाबेस का एक लिंक है। फ्रंट पेज में 2 परत तंत्रिका नेटवर्क सहित कई अलग-अलग तरीकों के लिए सापेक्ष प्रदर्शन डेटा भी है। यह आपको एक अच्छी शुरुआत देना चाहिए: MNIST digits database and performance

तुम भी Geoff Hinton's work on Restricted Boltzmann Machines की जाँच करने के लिए जो वह प्रदर्शन का कहना है काफी अच्छी तरह से चाहते हो सकता है, और वहाँ अपनी साइट पर एक अच्छा व्याख्यात्मक व्याख्यान (बहुत देखने लायक) है।

1

यहां एक Matlab example program है जो एकल अंक (छवि आकार 28 * 28 तक तय) का पता लगाने के लिए एक प्रशिक्षित तंत्रिका नेटवर्क का उपयोग करता है।

संबंधित मुद्दे

 संबंधित मुद्दे