इससे पहले पूछा गया है, लेकिन मुझे वास्तव में पता नहीं है कि उत्तर मेरी मदद करते हैं या नहीं। यहां मेरी समस्या है: मुझे (10,000 या तो) पीडीएफ फाइलों का एक गुच्छा मिला। कुछ टेक्स्ट फाइलें थीं जिन्हें एडोब की प्रिंट फीचर का उपयोग करके सहेजा गया था (इसलिए उनका टेक्स्ट सही है और मैं उन्हें खराब करने का जोखिम नहीं लेना चाहता हूं)। और कुछ स्कैन की गई छवियां थीं (इसलिए उनके पास कोई टेक्स्ट नहीं है और मुझे ओसीआर के लिए बसना होगा)। फाइलें एक ही निर्देशिका में हैं और मैं यह नहीं बता सकता कि कौन सा है। आखिरकार मैं उन्हें .txt फ़ाइलों में बदलना चाहता हूं और फिर उन पर स्ट्रिंग प्रोसेसिंग करना चाहता हूं। तो मैं सबसे सटीक ओसीआर संभव चाहता हूँ।पीडीएफ के लिए बैच ओसीआर कार्यक्रम
ऐसा लगता है जैसे लोगों की सिफारिश की है:
- एडोब पीडीएफ (मैं इस का एक लाइसेंस की नकल तो नहीं है ... प्लस अगर मैं जीता, तो ABBYY FineReader या कुछ बेहतर है, यही कारण है कि इसके लिए भुगतान इसका उपयोग नहीं करें)
- ओक्रोपस (मैं इस बात का उपयोग कैसे कर सकता हूं),
- टेस्सेरैक्ट (ऐसा लगता है कि यह 1995 में बहुत अच्छा था लेकिन मुझे यकीन नहीं है कि कुछ और सटीक प्लस है पीडीएफ को मूल रूप से नहीं करना है और मुझे टीआईएफएफ में कनवर्ट करना होगा। इससे मेरी समस्या बढ़ जाती है क्योंकि मेरे पास एक्रोबैट की लाइसेंस प्राप्त प्रति नहीं है इसलिए मुझे नहीं पता कि मैं 10,000 फाइलों को कैसे टफ कर दूंगा। plu मैं नहीं चाहता कि 10,000 30 पेज दस्तावेज 30,000 व्यक्तिगत टिफ छवियों में परिवर्तित हो जाएं)।
- wowocr
- pdftextstream (है कि 2009 से था)
- ABBYY FineReader (जाहिरा तौर पर अपनी '$$$, लेकिन मैं $ 600 अगर यह बात काफी बेहतर है, खर्च इस करवाने के लिए जाएंगे, यानी अधिक सटीक ओसीआर है)।
इसके अलावा मैं प्रोग्रामिंग के लिए एक n00b हूं, इसलिए अगर कुछ सीखने के लिए सप्ताहों की तरह लग रहा है, तो मैं $$$ का भुगतान करूंगा। इनपुट/अनुभव के लिए Thx।
बीटीडब्ल्यू, मैं लिनक्स मिंट 11 64 बिट और/या विंडोज 7 64 बिट चला रहा हूं।
यहाँ अन्य सूत्र हैं:
Batch OCRing PDFs that haven't already been OCR'd
PDF Text Extraction Approach Using OCR
https://superuser.com/questions/107678/batch-ocr-for-many-pdf-files-not-already-ocred