2012-09-26 6 views
5

मैंने पीडीएफ फाइलों से पाठ निकालने के लिए दोनों pyPdf और pdfMiner के साथ प्रयोग किया है। मेरे पास कुछ असभ्य पीडीएफ हैं जो केवल पीडीएफएमनर सफलतापूर्वक निकालने में सक्षम है। मैं संपूर्ण फ़ाइल के लिए पाठ निकालने के लिए कोड here का उपयोग कर रहा हूं। हालांकि, मैं वास्तव में प्रति पृष्ठ आधार पर पाठ निकालना चाहता हूं जैसे कि getPage(i).extractText() कार्यक्षमता pyPdf में। क्या किसी को पता है कि पीडीएफएमनर का उपयोग कर प्रति पेज टेक्स्ट निकालने का तरीका कैसे है?पायथन पीडीएफमिनर के साथ प्रति पेज टेक्स्ट निकालें?

उत्तर

6
for pageNumber, page in enumerate(PDFDocument.get_pages()): 
    if pageNumber == 42: 
     #do something with the page 

एक बहुत अच्छा लेख here है।

+0

क्या कोई इस पर विस्तार कर सकता है? मुझे अपने सिर को पीडीएफमिनेर के आसपास लाने में बड़ी परेशानी हो रही है क्योंकि इसमें कोई दस्तावेज नहीं है। – Jazcash

+0

इस कोड के लिए 'pdfminer' का कौन सा संस्करण काम करता है? –

+0

यह वर्तमान * पीडीएफमिनेर * (20140328 लिखने के लेखन के समय) के साथ टूटा हुआ प्रतीत होता है। –

संबंधित मुद्दे