मुझे एक साधारण पाठ से बोल्ड और इटैलिक शब्दों को निकालने के लिए ओसीआर का उपयोग करने में दिलचस्पी है। उदाहरण के लिए, अगर मैं इनपुट तो जैसे लेख के साथ एक स्पष्ट छवि: "। त्वरित ब्राउन लोमड़ी आलसी कुत्ते पर कूदता"क्या मैं फ़ॉन्ट शैली (बोल्ड, इटालिक) का पता लगाने के लिए ओसीआर का उपयोग कर सकता हूं?
मैं की तरह तो एक आउटपुट प्राप्त करना चाहते हैं: बोल्ड ("ब्राउन", "कूदता"), इटैलिक ("सुस्त")
मैं OCRopus या Tesseract के साथ ऐसा करने में देखा है, लेकिन प्रलेखन है गरीब और मैं यह नहीं बता सकता कि यह संभव है, या यदि यह है तो इसे कैसे करें।
न्यू यूआरएल: https://github.com/tesseract-ocr/tesseract/blob/3.01/api/resultiterator.h#L95 –