2011-10-12 16 views
5

मेरे पास 30,000 से अधिक पीडीएफ फाइलें हैं। कुछ फाइलें पहले ही ओसीआर हैं और कुछ नहीं हैं। क्या यह पता लगाने का कोई तरीका है कि कौन सी फाइलें पहले ही ओसीआरई हैं और कौन सी पीडीएफ केवल छवि हैं?ओसीआर की आवश्यकता वाले पीडीएफ फाइलों की पहचान कैसे करें?

यदि मैं ओसीआर प्रोसेसर के माध्यम से प्रत्येक फ़ाइल चलाता हूं तो यह हमेशा के लिए ले जाएगा।

उत्तर

3

मैं पीडीएफ फाइलों से पाठ निकालने के लिए एक छोटी सी लिपि लिखूंगा और देख सकता हूं कि यह "खाली" है या नहीं। यदि पाठ है तो पीडीएफ पहले ही ओसीआरड था। पाठ को निकालने के लिए आप या तो ghostscript या XPDF का उपयोग कर सकते हैं।

संपादित करें: यह मिलना चाहिए आप आरंभ:

foreach ($pdffile in get-childitem -filter *.pdf){ 
    $pdftext=invoke-expression ("\path\to\xpdf\pdftotext.exe '"+$pdffile.fullname+"' -"); 
    write-host $pdffile.fullname 
    write-host $pdftext.length; 
    write-host $pdftext; 
    write-host "-------------------------------"; 
} 

दुर्भाग्य से भी आप केवल अपने पीडीएफ pdftotext में छवियों है जब, कुछ पाठ निकाल देंगे, इसलिए आप कुछ और अधिक काम करना होगा कि क्या आप की जरूरत है की जाँच करने के ओसीआर पीडीएफ के लिए।

+0

धन्यवाद। कम से कम आपने मुझे कुछ सोचने के लिए दिया है। क्या भूत-स्क्रिप्ट स्क्रिप्ट ghostscript या xpdf के साथ बनाया जा सकता है? क्या आपके पास कुछ आसान है कि मैं कोशिश कर सकता हूं? एक बार फिर धन्यवाद। –

+0

मेरे उत्तर –

+0

पर कुछ स्क्रिप्ट जोड़ा गया कोड स्निपेट के लिए धन्यवाद। मैं कोशिश करूँगा। –

0

XPDF ने मेरे लिए एक अलग तरीके से काम किया। लेकिन यकीन नहीं है कि यह सही तरीका है।

छवि के साथ मेरे पीडीएफ ने भी टेक्स्ट सामग्री दी। इसलिए मैंने pdffonts.exe का उपयोग यह सत्यापित करने के लिए किया था कि फोंट दस्तावेज़ में एम्बेड किए गए हैं या नहीं। मेरे मामले में सभी छवि फ़ाइलों ने एम्बेडेड मान के लिए 'नहीं' दिखाया।

> Config Error: No display font for 'Symbol' 
> Config Error: No display font for 'ZapfDingbats' 
> name         type    emb sub uni object ID 
> ------------------------------------ ----------------- --- --- --- --------- 
> Helvetica       Type 1   no no no  7 0 

कहाँ के रूप में सभी खोजा पीडीएफ़ दिया जवाब देने के लिए 'हां'

> Config Error: No display font for 'Symbol' 
> Config Error: No display font for 'ZapfDingbats' 
> name         type    emb sub uni object ID 
> ------------------------------------ ----------------- --- --- --- --------- 
> ABCDEE+Calibri      TrueType   yes yes no  7 0 
> ABCDEE+Calibri,Bold     TrueType   yes yes no  9 0 
संबंधित मुद्दे