टेसेरैक्ट ओसीआर

के लिए एक प्रशिक्षण छवि बनाना मैं टेसेरैक्ट ओसीआर के लिए प्रशिक्षण छवियों के लिए जनरेटर लिख रहा हूं।टेसेरैक्ट ओसीआर

जब Tesseract ओसीआर के लिए एक नया फ़ॉन्ट के लिए एक प्रशिक्षण छवि पैदा करने, के लिए सबसे अच्छा मान रहे हैं:

डीपीआई
अंक में फ़ॉन्ट आकार
फ़ॉन्ट विरोधी aliased होना चाहिए या नहीं
बाउंडिंग बॉक्स आराम से फिट चाहिए: , या नहीं:

2012-11-16 sashoalm

कोशिश फ़ॉन्ट 12 अंक और 300 dpi –

मुझे चौथे प्रश्न का उत्तर मिला - "क्या बाध्यकारी बक्से चुस्त रूप से फिट होना चाहिए"।

ऐसा लगता है कि जितना संभव हो सके आयतों को फिट करना बेहतर परिणाम देता है।

अन्य 12 अंक और 300 डीपीआई पर्याप्त अच्छे होंगे, जैसा कि @ यरोस्लाव ने सुझाव दिया था। मुझे लगता है कि एंटी-एलियासिंग बेहतर बंद हो गया है।

स्रोत

2012-11-21 15:12:44 sashoalm

2 वां प्रश्न किसी भी तरह उत्तर दिया गया है: http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images कई आकारों के साथ ट्रेन करने की कोई आवश्यकता नहीं है। 10 बिंदु करेंगे। (इसका एक अपवाद बहुत छोटे पाठ है। आप एक एक्स-ऊंचाई के साथ लेख पहचानने के लिए चाहते हैं, तो छोटे के बारे में 15 पिक्सल से, आप या तो यह विशेष रूप से प्रशिक्षित या उन्हें पहचान करने के लिए प्रयास करने से पहले आपकी छवियों पैमाने पर करना चाहिए।)

प्रश्न 1 और 3: अनुभव से, मैंने सफलतापूर्वक 300 डीपीआई छवियों/गैर एंटी-एलाइज्ड फोंट का उपयोग किया है। अधिक विशेष रूप से, मैं एक प्रशिक्षण पीडीएफ है, जो एक संतोषजनक छवि उत्पन्न पर निम्नलिखित परिवर्तित मानकों का इस्तेमाल किया है:

convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif

लेकिन तब मैं Tesseract करने के लिए एक बिंदीदार फ़ॉन्ट जोड़ने की कोशिश की और यह केवल वर्ण ठीक से पता लगाया जब मैं एक 150 का इस्तेमाल किया डीपीआई छवि। इसलिए, मुझे नहीं लगता कि एक सामान्य समाधान है, यह उन फ़ॉन्ट्स पर निर्भर करता है जिन्हें आप जोड़ने की कोशिश कर रहे हैं।

स्रोत

2013-05-09 22:24:52

-1

Tesseract प्रशिक्षण के लिए अच्छा उपकरण http://vietocr.sourceforge.net/training.html

यह अच्छा उपकरण क्योंकि फायदे

पत्र में बॉक्स बाउंडिंग के होने संख्या जीयूआई द्वारा संपादित किया जा सकता है
स्वचालित रूप से बनाने आधारित इंटरफेस सभी फाइल
स्वचालित रूप से सभी फ़ाइलों जैसे freq-dawg, word-dawg, उपयोगकर्ता-शब्द (खाली फ़ाइल हो सकता है), Inttemp, Normproto, Pffmtable, Unicharset, DangAmbigs (खाली फ़ाइल हो सकती है), सभी को सिंगल में आकार देने योग्य ई eng.traineddata फ़ाइल।
नए प्रशिक्षण डेटा मौजूदा Tesseract फ़ाइल के साथ इस्तेमाल किया जा सकता end.traineddata

स्रोत

2016-09-05 10:06:09

टेसेरैक्ट ओसीआर

उत्तर

संबंधित मुद्दे