इसलिए राज्य में मुझे पीडीएफ फॉर्म में डेटा का एक गुच्छा जारी किया गया है, लेकिन मामलों को और भी खराब बनाने के लिए, पीडीएफ के अधिकांश (सभी?) कार्यालय, मुद्रित/फैक्स में टाइप किए गए अक्षरों में दिखाई देते हैं, और फिर स्कैन किया गया (हमारी सरकार अपने सबसे अच्छे एह पर?)। सबसे पहले मैंने सोचा कि मैं पागल था, लेकिन फिर मैंने कई पीडीएफ देखना शुरू कर दिया जो 'झुका हुआ' हैं, जैसे किसी ने उन्हें स्कैनर पर ठीक से नहीं मिला। इसलिए, मैंने उनसे वास्तविक पाठ प्राप्त करने के लिए अगली सबसे अच्छी चीज का अनुमान लगाया, प्रत्येक पृष्ठ को एक छवि में बदलना होगा।पीडीएफ को स्वचालित रूप से छवियों में कनवर्ट करना
स्पष्ट रूप से इसे स्वचालित होने की आवश्यकता है, और यदि संभव हो तो मैं पायथन के साथ रहना पसंद करूंगा। यदि रूबी या पर्ल के कार्यान्वयन के कुछ रूप हैं जो पास होने के लिए बहुत ही बढ़िया है, तो मैं उस मार्ग पर जा सकता हूं। मैंने टेक्स्ट निष्कर्षण के लिए पीईपीडीएफ की कोशिश की है, जो स्पष्ट रूप से मुझे बहुत अच्छा नहीं करता है। मैंने swftools की कोशिश की है, लेकिन मैं जो छवियां प्राप्त कर रहा हूं वह पूरी तरह से अनुपयोगी है। ऐसा लगता है कि फ़ॉन्ट्स रूपांतरण में बर्बाद हो जाते हैं। मैं वास्तव में रास्ते में छवि प्रारूप के बारे में भी परवाह नहीं करता, बस जब तक वे अपेक्षाकृत हल्के और पठनीय होते हैं।
ऐसा करने से पहले, फ़ाइलों को उत्पन्न करने वाली .gov इकाई से संपर्क करें। आप उस वास्तविक डिजिटल फ़ाइलों तक आसानी से पहुंच प्राप्त करने में सक्षम हो सकते हैं। .gov में काम करने और उसी समस्या में भाग लेने के बाद, यह आमतौर पर पुरातन कानूनी आवश्यकताओं (पेपर हस्ताक्षर) और/या तकनीकी समझ की कमी के कारण होता है (अक्सर, यह सामान आईटी/वेब टीम को बाईपास करेगा जहां वे इसे पकड़ सकेंगे)।आप उन्हें पहुंच के मुद्दे पर भी कॉल कर सकते हैं क्योंकि एक पृष्ठ का विशाल जेपीजी सहायक प्रौद्योगिकी के लिए पूरी तरह से पहुंच योग्य नहीं है। –
इसके अलावा, .gov भूमि के लिए उचित होने के लिए, उन्हें अक्सर एक अविश्वसनीय व्यापक तकनीकी चक्कर को पूरा करना होता है। हां, हम अभी भी ऐसे समय में रहते हैं जहां सबसे कम आम संप्रदाय एक पेपर फॉर्म है। –
बंद करने के लिए वोट दिया गया: http://stackoverflow.com/questions/331918/converting-a-pdf-to-a-series-of-images-with-python देखें। – Brian