मेरे पास छवियों का एक सेट है जिस पर मैं एक ओसीआर आवेदन चलाता हूं। इस प्रक्रिया के परिणामस्वरूप एक्सएमएल फाइल में चरित्र ऑफसेट्स होते हैं। फिर मैं छवियों को एक्रोबैट 9 का उपयोग करके पीडीएफ में परिवर्तित करता हूं। अब, मैं एक खोज योग्य पीडीएफ प्राप्त करने के लिए पीडीएफ में एक अदृश्य पाठ परत के रूप में एक्सएमएल फ़ाइल जानकारी जोड़ना चाहता हूं। क्या कोई आसान और मुफ़्त तरीका है?मौजूदा पीडीएफ में बाहरी ओसीआर कैसे एम्बेड करें?
कुछ विवरण:
मैं एक्रोबेट के ओसीआर कार्यक्षमता का उपयोग नहीं करना चाहते हैं;
एक एक्सएमएल फ़ाइल जो की तरह तत्व शामिल हैं में ओसीआर प्रक्रिया का परिणाम है:
<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>
अद्यतन: यह संभव कर क्या मैं एक अलग तरीके से चाहते हो सकता है। मान लीजिए कि छवियों के एक समूह से पहले से ही एक पीडीएफ फ़ाइल उत्पन्न हुई है, और जिसमें पहले से ही ओसीआरईडी टेक्स्ट शामिल है। क्या संभवतः (संभवतः प्रोग्रामेटिक) प्रत्येक पृष्ठ की छवि तक पहुंच बनाना संभव है, इसे संसाधित करें (उदा। इसे मोनोक्रोम में परिवर्तित करना), और इसे वापस पीडीएफ फ़ाइल में सहेजें? यदि हां, तो ओसीआरईडी टेक्स्ट खोया नहीं जाएगा।
[मैं एक अलग प्रश्न में इस अद्यतन रखना चाहिए?]
आप पा सकते हैं [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) उपयोगी –