2009-09-28 9 views
6

मेरे पास छवियों का एक सेट है जिस पर मैं एक ओसीआर आवेदन चलाता हूं। इस प्रक्रिया के परिणामस्वरूप एक्सएमएल फाइल में चरित्र ऑफसेट्स होते हैं। फिर मैं छवियों को एक्रोबैट 9 का उपयोग करके पीडीएफ में परिवर्तित करता हूं। अब, मैं एक खोज योग्य पीडीएफ प्राप्त करने के लिए पीडीएफ में एक अदृश्य पाठ परत के रूप में एक्सएमएल फ़ाइल जानकारी जोड़ना चाहता हूं। क्या कोई आसान और मुफ़्त तरीका है?मौजूदा पीडीएफ में बाहरी ओसीआर कैसे एम्बेड करें?

कुछ विवरण:

  • मैं एक्रोबेट के ओसीआर कार्यक्षमता का उपयोग नहीं करना चाहते हैं;

  • एक एक्सएमएल फ़ाइल जो की तरह तत्व शामिल हैं में ओसीआर प्रक्रिया का परिणाम है:

    <line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

अद्यतन: यह संभव कर क्या मैं एक अलग तरीके से चाहते हो सकता है। मान लीजिए कि छवियों के एक समूह से पहले से ही एक पीडीएफ फ़ाइल उत्पन्न हुई है, और जिसमें पहले से ही ओसीआरईडी टेक्स्ट शामिल है। क्या संभवतः (संभवतः प्रोग्रामेटिक) प्रत्येक पृष्ठ की छवि तक पहुंच बनाना संभव है, इसे संसाधित करें (उदा। इसे मोनोक्रोम में परिवर्तित करना), और इसे वापस पीडीएफ फ़ाइल में सहेजें? यदि हां, तो ओसीआरईडी टेक्स्ट खोया नहीं जाएगा।

[मैं एक अलग प्रश्न में इस अद्यतन रखना चाहिए?]

+0

आप पा सकते हैं [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) उपयोगी –

उत्तर

1

छिपी हुई परतों को खोए बिना पीडीएफ फाइलों को संसाधित करने के बारे में आपके अनुवर्ती प्रश्न के लिए: मेरा मानना ​​है कि Ghostscript ऐसा करने में सक्षम है। उदाहरण के लिए, निम्न आदेश ग्रेस्केल करने के लिए एक पीडीएफ कन्वर्ट करना चाहिए:

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf 
+0

अच्छा, यह काम किया। लेकिन आउटपुट उतना साफ नहीं है जितना मैं चाहता था। यदि ImageMagick टेक्स्ट परत को खोए बिना पीडीएफ को परिवर्तित कर सकता है, तो मैं प्रत्येक पृष्ठ को कुछ इस तरह से संसाधित करना चाहता हूं: कन्वर्ट \\ (-हाइट-थ्रेसहोल्ड 50% \\) -मोचोक्रोम ... शायद कहने का एक तरीका है आईएम का उपयोग कैसे करें जीएस, जैसे डेवपारिलो ने कहा। मैं बाद में इस पर जांच करूंगा। – kepler

-1

यदि आप केवल इतना ग्रेस्केल के लिए एक मौजूदा पीडीएफ कन्वर्ट है क्या करना चाहते हैं, Imagemagick कोशिश:

convert foo.pdf -colorspace Gray -compress zip gray.pdf 

मुझे नहीं पता लगता है कि यह आपके पीडीएफ में किसी अन्य विशेषता को बदल देगा।

+0

यह नहीं है लगता है कि पीडीएफ में छिपी हुई पाठ परत को बनाए रखना प्रतीत होता है। (ImageMagick 6.4.5 के साथ प्रयास किया गया।) –

+0

विषम, क्योंकि imagemagick ghostscript का उपयोग करता है ताकि यह छवि रूपांतरण कर सके ... – DaveParillo

+0

मैंने यह भी कोशिश की, और पाठ परत भी खो दी। मैंने ImageMagick 6.4.5 का भी उपयोग किया। – kepler

संबंधित मुद्दे