2011-03-02 11 views
10

मुझे एक साधारण पाठ से बोल्ड और इटैलिक शब्दों को निकालने के लिए ओसीआर का उपयोग करने में दिलचस्पी है। उदाहरण के लिए, अगर मैं इनपुट तो जैसे लेख के साथ एक स्पष्ट छवि: "। त्वरित ब्राउन लोमड़ी आलसी कुत्ते पर कूदता"क्या मैं फ़ॉन्ट शैली (बोल्ड, इटालिक) का पता लगाने के लिए ओसीआर का उपयोग कर सकता हूं?

मैं की तरह तो एक आउटपुट प्राप्त करना चाहते हैं: बोल्ड ("ब्राउन", "कूदता"), इटैलिक ("सुस्त")

मैं OCRopus या Tesseract के साथ ऐसा करने में देखा है, लेकिन प्रलेखन है गरीब और मैं यह नहीं बता सकता कि यह संभव है, या यदि यह है तो इसे कैसे करें।

उत्तर

9

ट्रंक से टेसेरैक्ट 3.0.1 में ऐसा फ़ंक्शन है। एक नया वर्ग एपीआई में जोड़ा जाता है - ResultIterator, निम्नलिखित समारोह आप में रुचि रखते हैं है जो:

WordFontAttributes(bool* is_bold, 
        bool* is_italic, 
        bool* is_underlined, 
        bool* is_monospace, 
        bool* is_serif, 
        bool* is_smallcaps, 
        int* pointsize, 
        int* font_id). 

वास्तव में आप यह अपने आप से here.

+0

न्यू यूआरएल: https://github.com/tesseract-ocr/tesseract/blob/3.01/api/resultiterator.h#L95 –

संबंधित मुद्दे

 संबंधित मुद्दे