2010-03-12 11 views
17

मैं SWFTools और XPDF की सहायता से छवियों/एसएफएफ और पाठ में एक पीडीएफ निकालने जा रहा हूं .. मैं इन्हें पीडीएफ स्क्रिप्ट में चला रहा हूं।पीडीएफ का टीओसी निकालें?

लेकिन अब मैं एक कदम आगे जाने की कोशिश कर रहा हूं और पीडीसी से टीओसी प्राप्त करने का प्रयास कर रहा हूं क्या यह जानकारी निकालना संभव है?

+2

+1, मुझे लगता है कि कैसे करना है और साथ ही देखकर इसकी सराहना करेंगे है। –

+0

यदि आप किसी तृतीय पक्ष एप्लिकेशन के साथ ऐसा करना चाहते हैं तो मैं [डेबनेउ पीडीएफ एरियलिस्ट] (http://www.debenu.com/products/desktop/debenu-pdf-aerialist/) की अनुशंसा कर सकता हूं जिसके लिए एक निर्यात कार्य है "विषय - सूची"। –

उत्तर

11

मुझे यह थोड़ा सा खोज मिला। यह अपेक्षाकृत आशाजनक लग रहा है।

PDFMiner: http://www.unixuser.org/~euske/python/pdfminer/index.html

नोट: उपकरण अजगर आधारित है, लेकिन आप खोल उपयोग के माध्यम से उपकरण का उपयोग करने में सक्षम होना चाहिए। वैकल्पिक रूप से, आप स्रोत कोड से कुछ उपयोगी जानकारी प्राप्त करने में सक्षम हो सकते हैं, क्योंकि प्रोजेक्ट ओपन सोर्स है।

साइट से:

dumppdf.py

dumppdf.py छद्म XML स्वरूप में एक PDF फ़ाइल के आंतरिक सामग्री उदासीनता। यह प्रोग्राम प्राथमिक रूप से डिबगिंग उद्देश्यों के लिए है, लेकिन कुछ सार्थक सामग्री (जैसे छवियों) को निकालना भी संभव है।

उदाहरण:

$ dumppdf.py -a foo.pdf 
(dump all the headers and contents, except stream objects) 

$ dumppdf.py -T foo.pdf 
(dump the table of contents) 

$ dumppdf.py -r -i6 foo.pdf > pic.jpeg 
(extract a JPEG image) 
+0

आगे की जांच के बाद, मुझे इस उपकरण के लिए कुछ वास्तव में उपयोगी एप्लिकेशन मिल सकते हैं, स्वयं! यूसुके शिन्यामा और बाकी पीडीएफमिनर टीम को +1! –

+0

धन्यवाद, मुझे एक नजर आएगी .. लेकिन क्या यह एक्सएमएल के अंदर टीओसी भी उत्पन्न करता है .. गधे अब मैं सामग्री प्राप्त करने के लिए XPDF और PDF2SWF का उपयोग कर रहा हूं :) लेकिन TOC – Chris

+0

के लिए कोई विकल्प नहीं है मुझे लगता है कि मैं हूं सुनिश्चित नहीं है कि आप क्या पूछ रहे हैं। दूसरी "उदाहरण" लाइन विशेष रूप से टीओसी को एक एक्सएमएल फ़ाइल में डंप करने का दावा करती है, जिसे आप किसी भी तरीके से पार्स कर सकते हैं। मैंने स्वयं टूल का उपयोग नहीं किया है, ऐसा लगता है कि यह वही काम करेगा जो आप करना चाहते हैं। –

0

मुझे लगता है कि PHP's PDFLib पर शुरू करने के लिए एक बहुत अच्छी जगह होगी। यदि आप नीचे स्क्रॉल करते हैं, तो आपको पीडीएफ को एचटीएमएल या पीडीएफ में टेक्स्ट बदलने के लिए बहुत से उपयोगकर्ता द्वारा पोस्ट किए गए समाधान दिखाई देंगे। रूपांतरण के बाद, एक अपेक्षाकृत सरल मिलान फ़ंक्शन टैग की गई टीओसी वस्तुओं को निकाला जा सकता है और उन्हें उदाहरण के लिए सरणी में फेंक सकता है, जिसे आप कृपया कृपया जोड़ सकते हैं।

This StackOverflow post में कुछ और समाधान भी हैं।

उम्मीद है कि इससे मदद मिलती है।

+0

मैं पहले से ही XPDF pdf2txt का उपयोग कर रहा हूं ... लेकिन आप इससे कैसे मेल करेंगे? टीओसी आम तौर पर हाथ से बनाया जाता है .. और जानकारी को पीडीएफ में कहीं भी होना चाहिए .. (क्योंकि उनके पास साइड पैनल हो सकता है) – Chris

+0

टीओसी * केवल * हाथ से बनाया जाना चाहिए जब लोगों के पास आवश्यक पेशेवर न हो स्वचालित रूप से ऐसा करने के लिए उपकरण। यदि स्वचालित रूप से किया जाता है, तो टीओसी में आइटम को बुकमार्क के रूप में टैग किया जाता है (और मुझे लगता है कि यह वही है जिसे आप "साइड पैनल" के रूप में संदर्भित कर रहे हैं) और उनके पृष्ठों से जुड़े हुए हैं और इस प्रकार मिलान करना आसान है। अगर वे हाथ से किए जाते हैं, तो वे उस पीडीएफ में कहीं भी पाठ के किसी भी अन्य हिस्से से अलग नहीं हैं और एक स्क्रिप्ट सफलतापूर्वक उनसे मेल खाती है असंभव के करीब होगी। –

2

वैकल्पिक रूप से, आप MuPDF एक बहुत हल्के लेकिन पूरा पीडीएफ कार्यान्वयन सी लिखा apps/ उपनिर्देशिका में है जो उपयोग कर सकते हैं आप कुछ उपकरण जो देख सकते हैं मिलेगा, डंप और पीडीएफ फाइलों से जानकारी निकालें। मैं xpdf पर एमयूपीडीएफ पसंद करूंगा क्योंकि यह सक्रिय रूप से बनाए रखा गया है और बेहतर पीडीएफ समर्थन है।

अन्यथा, हमेशा Poppler है जो वास्तव में xpdf पर आधारित है। डेवलपर्स ने अपना कोड सी ++ पर पोर्ट किया। इसलिए, यह अपने पूर्ववर्ती से भी बदतर है। एमयूपीडीएफ की तुलना में, पॉपप्लर में कुछ और विशेषताएं हैं, लेकिन बदले में कोड बहुत जटिल है।

आपके उद्देश्यों के लिए एमयूपीडीएफ पर्याप्त होना चाहिए। आप apps/ में प्रदान किए गए उदाहरण कोड से एक साधारण एप्लिकेशन को एक साथ जोड़ सकते हैं जो बाह्य अनुप्रयोगों पर भरोसा किए बिना आपको आवश्यक सभी जानकारी निकाल देता है।

+0

धन्यवाद मैं इसे भी कोशिश करूंगा ^^ – Chris

4

मैंने dump.pdf -T की कोशिश की, लेकिन यह कुछ पीडीएफ फाइलों पर काम नहीं किया।

एमयूपीडीएफ का एक और टूल है जिसका नाम mutool है, जिसे मैंने अभी पाया है। मुझे नहीं पता कि यह dump.pdf से बेहतर है लेकिन पीडीएफ फाइल पर काम किया dump.pdf एक त्रुटि फेंकता है।

यहाँ कैसे mutool साथ टीओसी निकालने के लिए

mutool show {your-pdf-file} outline

MuPDF

संबंधित मुद्दे