मैं tesseract ocr में नए फोंट जोड़ने की कोशिश कर रहा हूं। मैं this tutorial का पालन कर रहा हूं लेकिन मुझे कुछ समस्याएं आ रही हैं।टेस्सेक्टैक्ट में नए फ़ॉन्ट्स जोड़ना 3
यहाँ मैं अब तक क्या किया है:
बनाएं प्रशिक्षण दस्तावेज़
convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
ट्रेन Tesseract
tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox
यह मेरा eng.myfont बनाया .exp0.box फ़ाइल।
मैं फ़ाइल को मॉशिपेट के साथ खोलता हूं और सुनिश्चित करता हूं कि यह सही तरीके से पता चला है।
बॉक्स फ़ाइल फ़ीड वापस Tesseract में
tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr
मैं इस परिणाम है:
Leptonica साथ Tesseract मुक्त स्रोत ओसीआर इंजन v3.03
APPLY_BOXES:
बक्से पढ़ बॉक्सफाइल से: 146
मिला 146 अच्छे ब्लब्स।
प्रशिक्षण ... फ़ॉन्ट का नाम = myfont.exp0
जनरेट किया गया 6 शब्द- eng.myfont.exp0.box.tr फ़ाइल और eng.myfont.exp0.box.txt के लिए प्रशिक्षण डेटा उत्पन्न
कोशिश चरित्र बॉक्स फ़ाइल में प्रयुक्त सेट का पता लगाने के लिए (यह वह जगह है जहाँ मैं अटक जाते हैं)
unicharset_extractor *.box
परिणाम:
unicharset_extractor: आदेश नहीं मिला
मैं भी एक ही परिणाम के साथ unicharset_extractor eng.myfont.exp0.box
tred।
मैं उपयोग कर रहा हूँ:
- Tesseract 3.03
- leptonica-1.70
- libgif 4.1.6 (?): Libjpeg 8d: libpng 1.2.50: libtiff 4.0.3: zlib 1.2। 8: webp 0.4.0
- उबंटू 14.04.1 LTS
यह बहुत ही असाधारण है। इसका मतलब है कि आदेश नहीं मिल सकता है। मेरे सिस्टम पर मैं उस आदेश को '/ usr/local/bin/unicharset_extractor' में किसी भी मुद्दे के बिना ढूंढने में सक्षम हूं। – mlissner