2011-09-06 15 views
5

मेरे पास टेसेरैक्ट पर आधारित एक बहुत ही सरल ओसीआर ऐप है। मान्यता चरण के बाद, मैं एक उपयोगकर्ता सत्यापन चरण भी प्रदान करता हूं जो ओसीआर गलत होने पर सुधार की अनुमति देता है। उपयोगकर्ता इंटरफ़ेस को बेहतर बनाने के लिए, मैं मूल इनपुट छवि, पर OCR-ed वर्ण के शीर्ष पर आयत खींचने की योजना बना रहा हूं और ओसीआर आउटपुट के साथ इसे एक तरफ रखता हूं। उस पर पहुंचने के लिए, मुझे मान्यता प्राप्त वर्णों का समन्वय चाहिए।मान्यता प्राप्त पात्रों के निर्देशांक कैसे प्राप्त करें

मैं कुछ इस तरह की कोशिश की लेकिन यह मुझे निरर्थक शब्द देने के लिए लगता है:

ETEXT_DESC output; 
    tess->Recognize(&output); 
    text = tess->GetUTF8Text(); 

अब अगर मैं का उपयोग output-> गिनती, यह मेरे 10,000 से ऊपर कुछ मूल्य, जो स्पष्ट रूप से गलत है देता है क्योंकि पूरे छवि केवल 20 या तो अक्षर हैं।

क्या मैं सही रास्ते पर हूं? क्या मुझे कुछ दिशा मिल सकती है?

उत्तर

5

शायद यह बॉक्स के निर्देशांक प्राप्त करने में मददगार है। टेस्सेक्ट के निष्पादन योग्य आज़माएं। आदेश

"tesseract.exe [छवि] [उत्पादन] makebox"

का प्रयोग आखिर आप प्रत्येक चरित्र, प्रति पंक्ति एक के निर्देशांकों को प्राप्त। फिर आप तुलना करने में सक्षम हैं।

+5

प्रोग्रामिंग के बारे में जानकारी प्राप्त करने के बारे में कैसे? – Haoest

1

tesseract निष्पादन योग्य एक विकल्प hocr उत्पादन मान्यता प्राप्त पात्रों और उनके coordiantes कोमें एचटीएमएल प्रारूप है। इस प्रोग्रामेटिक रूप से प्राप्त करने के लिए, FAQbaseapi.h का संदर्भ देता है।

संबंधित मुद्दे