2 वां प्रश्न किसी भी तरह उत्तर दिया गया है: http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images कई आकारों के साथ ट्रेन करने की कोई आवश्यकता नहीं है। 10 बिंदु करेंगे। (इसका एक अपवाद बहुत छोटे पाठ है। आप एक एक्स-ऊंचाई के साथ लेख पहचानने के लिए चाहते हैं, तो छोटे के बारे में 15 पिक्सल से, आप या तो यह विशेष रूप से प्रशिक्षित या उन्हें पहचान करने के लिए प्रयास करने से पहले आपकी छवियों पैमाने पर करना चाहिए।)
प्रश्न 1 और 3: अनुभव से, मैंने सफलतापूर्वक 300 डीपीआई छवियों/गैर एंटी-एलाइज्ड फोंट का उपयोग किया है। अधिक विशेष रूप से, मैं एक प्रशिक्षण पीडीएफ है, जो एक संतोषजनक छवि उत्पन्न पर निम्नलिखित परिवर्तित मानकों का इस्तेमाल किया है:
convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif
लेकिन तब मैं Tesseract करने के लिए एक बिंदीदार फ़ॉन्ट जोड़ने की कोशिश की और यह केवल वर्ण ठीक से पता लगाया जब मैं एक 150 का इस्तेमाल किया डीपीआई छवि। इसलिए, मुझे नहीं लगता कि एक सामान्य समाधान है, यह उन फ़ॉन्ट्स पर निर्भर करता है जिन्हें आप जोड़ने की कोशिश कर रहे हैं।
स्रोत
2013-05-09 22:24:52
कोशिश फ़ॉन्ट 12 अंक और 300 dpi –