ओसीआर

के लिए टेन्सफोर्लो मॉडल मैं टेन्सफोर्लो में नया हूं और मैं मॉडल बनाने की कोशिश कर रहा हूं जो मेरी छवियों पर ओसीआर करने में सक्षम होगा। मुझे 9 अक्षरों (सभी छवियों में तय), संख्याओं और अक्षरों को पढ़ना है। मेरे मॉडल इसओसीआर

https://matthewearl.github.io/2016/05/06/cnn-anpr/

मेरे सवालों का होगा करने के समान होगा, मैं प्रत्येक चरित्र के खिलाफ अपने मॉडल को प्रशिक्षित करना चाहिए सबसे पहले और बाद पूर्ण लेबल का प्रतिनिधित्व करने के लिए वर्ण गठबंधन। या मुझे सीधे पूर्ण लेबल पर ट्रेन करना चाहिए?

मुझे पता है कि मुझे इसी छवि के लिए मॉडल, छवियों + लेबलों को पास करने की आवश्यकता है, उन लेबलों का प्रारूप क्या है, क्या यह टेक्स्ट फ़ाइल है, मैं उस हिस्से के बारे में थोड़ा उलझन में हूं, इसलिए लेबल के स्वरूप के बारे में कोई स्पष्टीकरण मॉडल को पारित किया जाएगा सहायक होगा? मैं सराहना करता हूं, धन्यवाद।

स्रोत

2017-04-25 thug_

मैं संयुक्त सभी लेबलों पर प्रशिक्षण की सिफारिश करता हूं। यह सबसे साफ समाधान है। यदि यह विफल रहता है, तो आप विभिन्न तरीकों का प्रयास कर सकते हैं। आप आम तौर पर लेबल के रूप में एक गर्म एन्कोडेड वेक्टर में गुजरते हैं। उदाहरण के लिए कुत्तों और बिल्लियों के साथ, आपके पास लेबल बिल्ली को '[1,0] 'और कुत्ते के रूप में दर्शाया गया था [0,1]'। – niczky12

ठीक है धन्यवाद, मैं उदाहरण के लिए "17C31T2F" लेबल कैसे पारित कर सकता हूं? –

आकार 32px x 32px के हस्तलिखित प्रतीकों के [HASYv2 डेटासेट] (https://arxiv.org/abs/1701.08380) आपके लिए दिलचस्प हो सकता है। –

मैं ध्यान से अंत तक ओसीआर मॉडल को प्रशिक्षित करने की सिफारिश करता हूं। आप ध्यान ओसीआर का प्रयास कर सकते हैं जिसे हम सड़क नाम https://github.com/tensorflow/models/tree/master/research/attention_ocr

मेरा अनुमान लगाते हैं कि यह आपके मामले के लिए बहुत अच्छी तरह से काम करना चाहिए। इसके लिए डेटा तैयार करने के निर्देशों के लिए https://stackoverflow.com/a/44461910 का उत्तर देखें।

स्रोत

2017-06-26 21:22:54

धन्यवाद आपके उत्तर के लिए अलेक्जेंडर, मैं आपके द्वारा सुझाए गए तरीके से करने की कोशिश करूंगा। –

हाय अलेक्जेंडर, क्या आपको लगता है कि ध्यान ओसीआर मॉडल लाइसेंस प्लेटों पर काम करेगा? उदाहरण के लिए इस तरह की संख्या प्लेट: https://i.cbc.ca/1.3112890.1434422741!/fileImage/httpImage/image.jpg_gen/derivatives/16x9_620/kevin-eklund-rear-bike-rack।jpg और मान लीजिए कि हमारे पास ट्रेन करने के लिए पर्याप्त डेटा है, क्या आप जानते हैं कि मॉडल तक पहुंचने की अनुमानित सटीकता क्या होगी? धन्यवाद। –

@thug_ क्या आपने ध्यान ओसीआर आउट करने की कोशिश की है? क्या यह आपके लिए काम करता है? धन्यवाद। –

इस से निपटने के कुछ तरीके हैं (निम्नलिखित सूची संपूर्ण नहीं है)।

1) पहला व्यक्ति आपकी छवि से सीधे शब्द वर्गीकरण है। यदि 9 वर्णों की आपकी शब्दावली सीमित है तो आप एक शब्द विशिष्ट वर्गीकरण को प्रशिक्षित कर सकते हैं। फिर आप इस वर्गीकरण को अपनी छवि के साथ संकलित कर सकते हैं और उच्चतम संभावना वाले शब्द का चयन कर सकते हैं।

2) दूसरा विकल्प एक चरित्र वर्गीकरण को प्रशिक्षित करना है, अपनी छवि में सभी पात्रों को ढूंढना है, और उस संभावित चरित्र को ढूंढना है जिसमें 9 चरित्र हैं जिन्हें आप ढूंढ रहे हैं।

3) तीसरा विकल्प टेक्स्ट डिटेक्टर को प्रशिक्षित करना है, सभी संभावित टेक्स्ट बॉक्स ढूंढें। फिर अनुक्रम-आधारित मॉडल के साथ सभी टेक्स्ट बॉक्स पढ़ें, और अपनी बाधाओं का पालन करने वाले सबसे संभावित समाधान का चयन करें। निम्नलिखित पेपर में एक सरल अनुक्रम-आधारित मॉडल पेश किया गया है: http://ai.stanford.edu/~ang/papers/ICPR12-TextRecognitionConvNeuralNets.pdf। अन्य अनुक्रम-आधारित मॉडल एचएमएम, कनेक्शनिस्ट टेम्पोरल वर्गीकरण, ध्यान आधारित मॉडल इत्यादि पर आधारित हो सकते हैं।

4) चौथा विकल्प ध्यान-आधारित मॉडल हैं जो पहले टेक्स्ट को ढूंढने के लिए अंत तक काम करते हैं और फिर आउटपुट पात्र एक-एक-एक।

ध्यान दें कि यह सूची संपूर्ण नहीं है, इस समस्या को हल करने के कई अलग-अलग तरीके हो सकते हैं। अन्य विकल्प आपकी समस्या को हल करने में सहायता के लिए एबीबी या टेसेरैक्ट जैसे तृतीय पक्ष समाधानों का भी उपयोग कर सकते हैं।

स्रोत

2017-04-25 16:44:39 Xochipilli

धन्यवाद, क्या 1, 2 और 4 के लिए कोई उदाहरण उपलब्ध है। आपकी राय से कौन सा तरीका सबसे अच्छा होगा और किसके साथ जाना आसान होगा और क्यों? –

उत्तर

संबंधित मुद्दे