2012-04-17 14 views
5

के लिए आधारित पीडीएफ पाठ निष्कर्षण मैं चालान और बिल पीडीएफ फाइलोंनियम verious बिल और चालान

से पाठ निकाल करने के लिए फ़ाइलों लेआउट जटिल प्राप्त कर सकते हैं, हालांकि इसके ज्यादातर टेबल से भर दिया है।

मैंने पहले से ही पीडीएफ प्रारूप के बारे में कुछ दर्जन लेख पढ़े हैं, हमारे दिमाग को समझने के लिए यह कितना आसान है और मशीन को इसकी संरचना को समझना कितना मुश्किल है।

पाइथन के पीडीएफमिनेर और कुछ जावा टूल्स जैसे कुछ टूल्स भी डाउनलोड किए गए हैं, कुछ में नियम आधारित लेआउट निष्कर्षण भी है, जैसे कि LA-PDBtext ये सभी बेहतरीन पुस्तकालय हैं, जो आपको अंतिम चरण छोड़ देते हैं।

एडोब भी exportPdf कहा जाता है एक ऑनलाइन सेवा है, लेकिन यह अनुकूलित नहीं किया जा सकता

नीचे लाइन, मैं समझता हूँ कुछ है कि आदेश संरचित पीडीएफ फाइलों से पाठ निकाल और यह उदाहरण के लिए एक्सएमएल कन्वर्ट करने के लिए में, वहाँ होना चाहिए मैन्युअल काम का स्तर।

मुझे From Data Extractor भी मिला, जो नौकरी करने का दावा करने वाले निष्कर्षण नियमों को सेट करने की क्षमता के साथ एक गैर-मुक्त उपकरण है, हालांकि उचित मैनुअल ढूंढना मुश्किल है और यह केवल विंडोज़ पर चलता है।

मैंने सोचा कि मैं उन फ़ाइलों को छवियों में कनवर्ट करने का प्रयास भी कर सकता हूं और tesseract-ocr आज़मा सकता हूं लेकिन इससे पहले कि मैं अधिक समय बिताता हूं, सलाह देने का फैसला किया।

यदि मैं इस तरह के अनुभव वाले किसी व्यक्ति को संकेत देता हूं तो मैं बहुत आभारी रहूंगा।

+0

जब तक ये पीडीएफ पीडीएफ/ए -1 ए अनुरूप नहीं होते हैं, तो आप बहुत सारे काम में हैं - आपको मूल रूप से ओसीआर करना होगा। पीडीएफ इसके लिए सही प्रारूप नहीं है; इनवॉइस और बिलों को उचित रूप से संरचित एक्सएमएल या इसके बजाय EDIFACT के रूप में प्राप्त करने का प्रयास करें। –

+0

अरे मुझे पता है कि यह एक पुरानी पोस्ट है, लेकिन Tabula https://github.com/jazzido/tabula-extractor आज़माएं – blaze

उत्तर

7

मैंने बहुत सारे पीडीएफ निष्कर्षण किए हैं और मैं पुष्टि कर सकता हूं क्योंकि आप पहले ही खोज चुके हैं कि यह शुरू करने के लिए एक दर्दनाक प्रक्रिया हो सकती है। समझने की महत्वपूर्ण बातों में से एक यह है कि पीडीएफ के भीतर "टेबल" की कोई अवधारणा नहीं है, केवल पाठ जो इसके चारों ओर की रेखाएं होती है। साथ ही, इस बात की कोई गारंटी नहीं है कि पीडीएफ कोड के भीतर पाठ का रैखिक क्रम वास्तव में मुद्रित होने पर दृश्य क्रम से मेल खाता है। दूसरे शब्दों में, इस बात की कोई गारंटी नहीं है कि उस क्रम में "हैलो वर्ल्ड" लिखा गया है, यह draw 'word' at coord 20 then draw 'hello' at coord 10 हो सकता है। अधिकांश पीडीएफ निर्माता ऐसा नहीं करते हैं लेकिन फिर भी कोई गारंटी नहीं है। एक पीडीएफ निर्माता जितना अधिक रचनात्मक है (इनडिज़ीन, इलस्ट्रेटर, इत्यादि) अधिक संभावना है कि टेक्स्ट बाहर निकलना कठिन होगा। और वास्तव में, एक बार डिज़ाइनर फोंट के साथ गड़बड़ करना शुरू कर देता है तो कुछ प्रोग्राम कभी-कभी वास्तव में शब्दों को एक अक्षर में आउटपुट करते हैं, प्रत्येक बार फ़ॉन्ट को बदलते हैं।

उस ने कहा, मैं आपके द्वारा देखा गया पहला, एलए-पीडीएफ टेक्स्ट का सुझाव दूंगा। आप इसे discovery mode (अवरुद्ध) में चला सकते हैं जिससे आप नियम बना सकते हैं। मेरे पास अब जावा स्थापित नहीं है इसलिए मैं इसका परीक्षण नहीं कर सकता लेकिन यह बहुत ही आशाजनक प्रतीत होता है।

आपका दूसरा, ए-पीडीएफ फॉर्म डेटा एक्सट्रैक्टर, केवल वास्तविक पीडीएफ फॉर्मों के साथ ही काम करता है। यदि यह आपका मामला है तो मैं केवल ओपन सोर्स समाधान जैसे iText/iTextSharp का उपयोग करने की अनुशंसा करता हूं।

अंतिम ओसीआर मुझे क्रिंग करता है। मैं कल्पना नहीं कर सकता कि उन हुप्स के माध्यम से जाने से आप पीडीएफ को पार्स करने से बेहतर पाठ प्रस्तुत करेंगे। लेकिन फिर फिर, पीडीएफ एक दृश्य प्रारूप है, तो शायद यह होगा।

व्यक्तिगत रूप से मैं इस तरह की चीज़ के लिए iText/iTextSharp का उपयोग करता हूं लेकिन मैं चीजों को कठिन तरीके से करना चाहता हूं।

3

यह स्पष्ट नहीं है कि क्या आप बिल और चालान से डेटा निष्कर्षण स्वचालित करने के लिए विकास उपकरण की तलाश में हैं या केवल एक समय के उपकरण (उपयोगिता) के लिए जो गैर-डेवलपर द्वारा उपयोग किया जा सकता है?

वैसे भी यहाँ इंजन सहित कुछ विशेष उपकरण हैं वे का उपयोग करें:

  1. Tabula (खुला स्रोत, विशेष रूप से बैच प्रोसेसिंग के लिए शेल स्क्रिप्ट निर्यात कर सकते हैं पीडीएफ में तालिका से डेटा निकालने के लिए डिज़ाइन, स्थानीय होस्ट वेब के रूप में चलाता है। सेवा, JRuby Tabula engine)
  2. Viet OCR (खुला स्रोत नेट डेस्कटॉप पीडीएफ और छवियों से पाठ निकासी के लिए उपयोगिता के द्वारा संचालित, tesseract oct engine के आधार पर)
  3. Bytescout PDF Viewer (फ्रीवेयर बंद स्रोत नेट उपयोगिता का पता लगाता है और extrac स्कैन किया चालान, PDF Extractor SDK द्वारा संचालित सहित ts टेबल,)

अस्वीकरण: मैं ByteScout के लिए काम करते हैं।

संबंधित मुद्दे