2017-02-15 12 views
6

में पाठ पहचान मैं टेंसरफ्लो और दीप लर्निंग के लिए नया हूं। मैं प्रकृति दृश्य छवियों में पाठ को पहचानने की कोशिश कर रहा हूं। मैं एक ओसीआर के साथ काम करता था लेकिन मैं दीप लर्निंग का उपयोग करना चाहता हूं। टेक्स्ट में हमेशा एक ही प्रारूप होता है: ABC-DEF 88:88टेंसरफ्लो - छवि

मैंने जो किया है वह हर चरित्र/अंक को पहचानता है। इसका मतलब है कि मैंने अपने प्रशिक्षण और परीक्षण सेट का निर्माण करने के लिए प्रत्येक चरित्र के चारों ओर छवि को फसल किया (इसलिए प्रत्येक तस्वीर मुझे 10 अक्षर देती है) और वे दो रूपांतरण तंत्रिका नेटवर्क बनाते हैं। तो मेरा प्रशिक्षण सेट चरित्र चित्रों का एक सेट था और लेबल केवल अक्षर/अंक थे।

लेकिन मैं आगे जाना चाहता हूं। मैं जो करना चाहता हूं वह सिर्फ पूर्ण चित्र देने और पूरे पाठ को आउटपुट करना है (मेरे पिछले मॉडल में एक चरित्र नहीं)।

किसी भी मदद के लिए अग्रिम धन्यवाद।

उत्तर

5

कठिनाई यह है कि आप नहीं जानते कि टेक्स्ट कहां है। समाधान है, एक छवि दी गई है, आपको छवि के विभिन्न भाग को फसल करने के लिए एक स्लाइडिंग विंडो का उपयोग करने की आवश्यकता है, फिर फसल वाले क्षेत्र में ग्रंथों का निर्धारण करने के लिए क्लासिफायर का उपयोग करें। यदि ऐसा है, तो अपने चरित्र/अंक पहचानकर्ता का उपयोग यह बताने के लिए करें कि वे वास्तव में कौन से वर्ण/अंक हैं।

तो आपको एक और वर्गीकृत ट्रेन को प्रशिक्षित करने की आवश्यकता है: एक फसल वाली छवि (फसल वाली छवियों का आकार आपके टेक्स्ट क्षेत्र की तुलना में थोड़ा बड़ा होना चाहिए), तय करें कि ग्रंथों के अंदर क्या है या नहीं।

बस प्रशिक्षण सेट (सकारात्मक नमूने पाठ क्षेत्र हैं, नकारात्मक नमूने अन्य क्षेत्रों बेतरतीब ढंग से बड़ी छवियों से काटा जाता है) का निर्माण और ट्रेन ~

+0

धन्यवाद लेकिन इस वर्गीकारक (स्लाइडिंग खिड़की) एक convnet होना चाहिए करना चाहिए? प्रशिक्षण सेट में बहु चरित्र टेक्स्ट क्षेत्र या केवल एक वर्ण होना चाहिए? –

+1

एक कन्फनेट ठीक है और कार्यान्वित करने में आसान है, यदि आप टेंसरफ्लो, कैफे या कुछ अन्य गहरी सीखने के ढांचे का उपयोग कर रहे हैं, लेकिन पहचान चरण में धीमा हो सकता है (क्योंकि आपको पूरी छवि में खिड़की को स्लाइड करने की आवश्यकता है, क्योंकि प्रत्येक छवि के लिए कई खिड़कियां)। अन्य मॉडल भी काम करते हैं, जैसे हायर जैसी सुविधाओं के साथ एक बूस्टिंग विधि (Google द्वारा "हायर जैसे फीचर एडबॉस्ट कैस्केड" आप चेहरा पहचान पर बहुत सारी सामग्री पा सकते हैं)। – soloice

+0

@alexattia प्रशिक्षण सेट कई वर्णों को रखने के लिए बेहतर है। ऐसा करने से, आपके पास एक बड़ी खिड़की हो सकती है और झूठी सकारात्मक कम हो सकती है। यदि क्षेत्र बहुत छोटा है, तो कुछ अन्य चीजें अक्षरों/अंकों के रूप में रिपोर्ट की जा सकती हैं। कहें, एल्गोरिदम कुछ ऊर्ध्वाधर किनारे को "1" के रूप में ले सकता है, जो भयानक है। – soloice

संबंधित मुद्दे