2012-12-10 11 views
5

क्या किसी भी पीडीएफ की सामग्री को निकालने का कोई तरीका है? (मेरे पास अकादमिक कागजात का एक बड़ा फ़ोल्डर है, जो दुख की बात है कि "1010.3423.pdf" जैसे लेबल हैं। मैं उन्हें कुछ समझदारी से नाम देने के लिए एक बैश स्क्रिप्ट लिखना चाहता हूं, जिसमें पहले कुछ पंक्तियों को गुगल करना शामिल है।)क्या पैश से पीडीएफ की सामग्री निकालने का कोई तरीका है?

+0

संभावित डुप्लिकेट [पीडीएफ से स्वरूपित पाठ सामग्री को निकालने के तरीके] (http://stackoverflow.com/questions/2196621/how-to-extract-formatted-text-content-from-pdf) –

उत्तर

3

pdftotext है, जो आपको पीडीएफ फ़ाइल से शीर्षक और लेखकों को प्राप्त करने में मदद कर सकता है। फिर आप इसे Google पर उपयोग कर सकते हैं, या स्वयं फ़ाइल नाम उत्पन्न कर सकते हैं।

1

पीडीएफ 2 एक्सएमएल आपको अधिक विस्तृत जानकारी मिलेगा, मैं पिछले साल ऐसी उपयोगिता की तलाश में हूं, और मुझे लगता है कि pdf2xml सबसे अच्छा है।

संबंधित मुद्दे

 संबंधित मुद्दे