2009-01-10 29 views
19

मुझे अपने सर्वर पर पीडीएफ फाइल से सभी छवियों को निकालने की ज़रूरत है। मैं पीडीएफ पेज नहीं चाहता, केवल छवियों को उनके मूल आकार और संकल्प पर।मैं पीडीएफ फाइल से छवियों को कैसे निकाल सकता हूं?

मैं पर्ल, PHP या किसी अन्य यूनिक्स आधारित ऐप (जिसे मैं PHP से निष्पादन फ़ंक्शन के साथ बुलाता हूं) के साथ ऐसा कैसे कर सकता हूं?

+0

आपका शीर्षक अस्पष्ट है। इसे संभवतः "PHP का उपयोग करके पीडीएफ फाइल से छवियों को निकालने के लिए कैसे पढ़ा जाना चाहिए" – Soviut

+0

आप कैसे जानते हैं कि प्रत्येक छवि पृष्ठ पर कहां है? मेरे सबसे अच्छे ज्ञान के लिए, पीडीएफ फाइलें इस जानकारी को रिकॉर्ड नहीं करती हैं। –

उत्तर

21

pdfimages सिर्फ करता पीडीएफ से सभी छवि ओसीआर निकालने उस। यह poppler-utils और xpdf-utils संकुल का हिस्सा है।

मैनपेज से

:

Pdfimages एक पोर्टेबल दस्तावेज़ स्वरूप से छवियों (पीडीएफ) के रूप में पोर्टेबल पिक्समैप (पीपीएम) फ़ाइल, पोर्टेबल बिटमैप (PBM) की बचत होती है, या JPEG फ़ाइलों।

Pdfimages पीडीएफ फाइल में लिखा है, एक या अधिक पृष्ठों, पीडीएफ फाइल को स्कैन करता है, और प्रत्येक छवि के लिए एक पीपीएम, पीबीएम, या JPEG फ़ाइल लिखते हैं, image-root-nnn.xxx, जहां NNN छवि संख्या है और xxx छवि प्रकार (.ppm, .pbm, .jpg) है।

एनबी: पीडीएफमेज किसी भी अतिरिक्त परिवर्तन किए बिना पीडीएफ फाइल से कच्चे छवि डेटा निकालता है। पीडीएफ सामग्री धारा द्वारा किए गए किसी भी रोटेशन, क्लिपिंग, कलर इनवर्जन इत्यादि को नजरअंदाज कर दिया जाता है।

+0

मुझे लगता है कि जब आप xpdf स्थापित करते हैं तो पैकेज स्थापित हो जाता है। – PolyThinker

+0

जो भी सही है, दोनों संकुलों में pdfimages हैं। मेरे यूबंटू सर्वर पर –

11

पर्ल के संबंध में, क्या आपने CPAN चेक किया है?

  • PDF::GetImages - पीडीएफ दस्तावेज़
  • PDF::OCR से चित्र प्राप्त - एक pdf फ़ाइल से बाहर
  • PDF::OCR2 ओसीआर और चित्र प्राप्त - सभी पाठ और
2

pdfimages अच्छा है क्योंकि यह रीनकोड नहीं करता है बल्कि केवल जेपीई निकालें। लेकिन एक बग है:

पीडीएफमेज पैकेज "पॉपप्लर-यूटिल" या बड़े "xpdf-utils" से आता है। कम से कम उबंटू "poppler-utils" में पहले से ही स्थापित है। Poppler-utils में pdfimages 10.0.3 (उबंटू 9.04 Jaunty) अभी भी ".jpg" निकालने के विकल्प "-j" पर प्रतिक्रिया नहीं करता है। यह हमेशा ".ppm" निकालता है।

समाधान के लिए आप की जगह ले सकती "poppler-utils" के साथ "xpdf-utils": $ sudo apt-get स्थापित xpdf-utils

तरह संबंध

,

+++ ओलिवर

+0

न तो xpdf और न ही पॉपप्लर '-j' स्विच को पहचानता है – mbx

संबंधित मुद्दे

 संबंधित मुद्दे