2017-04-25 10 views
7

के लिए टेन्सफोर्लो मॉडल मैं टेन्सफोर्लो में नया हूं और मैं मॉडल बनाने की कोशिश कर रहा हूं जो मेरी छवियों पर ओसीआर करने में सक्षम होगा। मुझे 9 अक्षरों (सभी छवियों में तय), संख्याओं और अक्षरों को पढ़ना है। मेरे मॉडल इसओसीआर

https://matthewearl.github.io/2016/05/06/cnn-anpr/

मेरे सवालों का होगा करने के समान होगा, मैं प्रत्येक चरित्र के खिलाफ अपने मॉडल को प्रशिक्षित करना चाहिए सबसे पहले और बाद पूर्ण लेबल का प्रतिनिधित्व करने के लिए वर्ण गठबंधन। या मुझे सीधे पूर्ण लेबल पर ट्रेन करना चाहिए?

मुझे पता है कि मुझे इसी छवि के लिए मॉडल, छवियों + लेबलों को पास करने की आवश्यकता है, उन लेबलों का प्रारूप क्या है, क्या यह टेक्स्ट फ़ाइल है, मैं उस हिस्से के बारे में थोड़ा उलझन में हूं, इसलिए लेबल के स्वरूप के बारे में कोई स्पष्टीकरण मॉडल को पारित किया जाएगा सहायक होगा? मैं सराहना करता हूं, धन्यवाद।

+0

मैं संयुक्त सभी लेबलों पर प्रशिक्षण की सिफारिश करता हूं। यह सबसे साफ समाधान है। यदि यह विफल रहता है, तो आप विभिन्न तरीकों का प्रयास कर सकते हैं। आप आम तौर पर लेबल के रूप में एक गर्म एन्कोडेड वेक्टर में गुजरते हैं। उदाहरण के लिए कुत्तों और बिल्लियों के साथ, आपके पास लेबल बिल्ली को '[1,0] 'और कुत्ते के रूप में दर्शाया गया था [0,1]'। – niczky12

+0

ठीक है धन्यवाद, मैं उदाहरण के लिए "17C31T2F" लेबल कैसे पारित कर सकता हूं? –

+0

आकार 32px x 32px के हस्तलिखित प्रतीकों के [HASYv2 डेटासेट] (https://arxiv.org/abs/1701.08380) आपके लिए दिलचस्प हो सकता है। –

उत्तर

3

मैं ध्यान से अंत तक ओसीआर मॉडल को प्रशिक्षित करने की सिफारिश करता हूं। आप ध्यान ओसीआर का प्रयास कर सकते हैं जिसे हम सड़क नाम https://github.com/tensorflow/models/tree/master/research/attention_ocr

मेरा अनुमान लगाते हैं कि यह आपके मामले के लिए बहुत अच्छी तरह से काम करना चाहिए। इसके लिए डेटा तैयार करने के निर्देशों के लिए https://stackoverflow.com/a/44461910 का उत्तर देखें।

+0

धन्यवाद आपके उत्तर के लिए अलेक्जेंडर, मैं आपके द्वारा सुझाए गए तरीके से करने की कोशिश करूंगा। –

+0

हाय अलेक्जेंडर, क्या आपको लगता है कि ध्यान ओसीआर मॉडल लाइसेंस प्लेटों पर काम करेगा? उदाहरण के लिए इस तरह की संख्या प्लेट: https://i.cbc.ca/1.3112890.1434422741!/fileImage/httpImage/image.jpg_gen/derivatives/16x9_620/kevin-eklund-rear-bike-rack।jpg और मान लीजिए कि हमारे पास ट्रेन करने के लिए पर्याप्त डेटा है, क्या आप जानते हैं कि मॉडल तक पहुंचने की अनुमानित सटीकता क्या होगी? धन्यवाद। –

+0

@thug_ क्या आपने ध्यान ओसीआर आउट करने की कोशिश की है? क्या यह आपके लिए काम करता है? धन्यवाद। –

2

इस से निपटने के कुछ तरीके हैं (निम्नलिखित सूची संपूर्ण नहीं है)।

1) पहला व्यक्ति आपकी छवि से सीधे शब्द वर्गीकरण है। यदि 9 वर्णों की आपकी शब्दावली सीमित है तो आप एक शब्द विशिष्ट वर्गीकरण को प्रशिक्षित कर सकते हैं। फिर आप इस वर्गीकरण को अपनी छवि के साथ संकलित कर सकते हैं और उच्चतम संभावना वाले शब्द का चयन कर सकते हैं।

2) दूसरा विकल्प एक चरित्र वर्गीकरण को प्रशिक्षित करना है, अपनी छवि में सभी पात्रों को ढूंढना है, और उस संभावित चरित्र को ढूंढना है जिसमें 9 चरित्र हैं जिन्हें आप ढूंढ रहे हैं।

3) तीसरा विकल्प टेक्स्ट डिटेक्टर को प्रशिक्षित करना है, सभी संभावित टेक्स्ट बॉक्स ढूंढें। फिर अनुक्रम-आधारित मॉडल के साथ सभी टेक्स्ट बॉक्स पढ़ें, और अपनी बाधाओं का पालन करने वाले सबसे संभावित समाधान का चयन करें। निम्नलिखित पेपर में एक सरल अनुक्रम-आधारित मॉडल पेश किया गया है: http://ai.stanford.edu/~ang/papers/ICPR12-TextRecognitionConvNeuralNets.pdf। अन्य अनुक्रम-आधारित मॉडल एचएमएम, कनेक्शनिस्ट टेम्पोरल वर्गीकरण, ध्यान आधारित मॉडल इत्यादि पर आधारित हो सकते हैं।

4) चौथा विकल्प ध्यान-आधारित मॉडल हैं जो पहले टेक्स्ट को ढूंढने के लिए अंत तक काम करते हैं और फिर आउटपुट पात्र एक-एक-एक।

ध्यान दें कि यह सूची संपूर्ण नहीं है, इस समस्या को हल करने के कई अलग-अलग तरीके हो सकते हैं। अन्य विकल्प आपकी समस्या को हल करने में सहायता के लिए एबीबी या टेसेरैक्ट जैसे तृतीय पक्ष समाधानों का भी उपयोग कर सकते हैं।

+0

धन्यवाद, क्या 1, 2 और 4 के लिए कोई उदाहरण उपलब्ध है। आपकी राय से कौन सा तरीका सबसे अच्छा होगा और किसके साथ जाना आसान होगा और क्यों? –

संबंधित मुद्दे