2009-10-31 5 views
5

का उपयोग कर पीडीएफ को व्यावहारिक पाठ में परिवर्तित करना क्या कोई पुस्तकालय है जिसमें सी # .net में पीडीएफ फ़ाइल से पाठ निकालने के लिए कक्षा है? मैंने कुछ कोशिश की है लेकिन दस्तावेज़ीकरण भयानक है, इसलिए मैं इसे जमीन से बाहर नहीं कर पाया। इसके अलावा यदि यह छवियों को निकालने के लिए एक वर्ग प्रदान करता है जो प्लस होगा। कोई सुझाव? अग्रिम में Thx।सी #

इसके अलावा मुझे इसे किसी मौजूदा एप्लिकेशन में लागू करने में सक्षम होना चाहिए।

उत्तर

3

क्या आपने PDFKit.NET को आजमाया है? इसमें उचित दस्तावेज़ और कुछ अच्छे उदाहरण हैं। यह एक सर्वर वातावरण के लिए डिज़ाइन किया गया है, इसलिए यह थोड़ा महंगा है।

EDIT यहां स्रोतफोर्ज पर एक ओपन सोर्स लाइब्रेरी है जिसे iTextSharp कहा जाता है। यह ओपन सोर्स प्रोजेक्ट्स के लिए नि: शुल्क है। मैंने इसका इस्तेमाल नहीं किया है, लेकिन यह आशाजनक लग रहा है। Here is a tutorial इसके लिए बहुत सारे कोड उदाहरण हैं।

+1

+1 मुफ्त अच्छा है। –

0

हमने छवि रूपांतरण के लिए काम पर बर्फबारी सॉफ्टवेयर का उपयोग किया है। यह स्पष्ट रूप से text extraction का भी समर्थन करता है। हालांकि, यह मुफ़्त नहीं है।

+0

यह सुनिश्चित नहीं है कि लिंक क्यों काम नहीं करेगा। लेकिन आप snowbound.com -> समाधान -> टेक्स्ट निष्कर्षण पर जा सकते हैं –

1

यहां कुछ तरीके हैं जिन पर आप जा सकते हैं - इसमें से बहुत कुछ इस बात पर निर्भर करेगा कि आप मूल पीडीएफ के स्वरूपण (यानी, पैराग्राफ और अन्य लेआउट तत्व) को बनाए रखना चाहते हैं या नहीं।

यदि आप वाणिज्यिक समाधान पर विचार कर रहे हैं, तो हम दो उत्पादों की पेशकश करते हैं जो आपकी आवश्यकताओं को पूरा कर सकते हैं। एक ईज़ीपीडीएफ एसडीके है जिसमें एकल शॉट एक्स्ट्रेक्ट टेक्स्ट() और एक्स्ट्रेक्ट टेक्स्ट 2() कॉल है जो आपके पीडीएफ से टेक्स्ट को सादा पाठ के रूप में खींचती है।

ध्यान दें कि इन कॉलों का आउटपुट बहुत सरल है और आप मूल लेआउट तत्वों को खो देंगे। वे साधारण पाठ निष्कर्षण के लिए अच्छे हैं लेकिन यदि आपके पीडीएफ में टैब्यूलर डेटा होता है तो यह अच्छा नहीं होगा।

यदि आप तालिकाओं से निपट रहे हैं, तो इसके बजाय समृद्ध टेक्स्ट के रूप में इसे खींचने के लिए एक अच्छा विकल्प हो सकता है। हमारे पास एक ऐसा टूल है जिसे EasyConverter SDK नामक व्यवसाय दस्तावेजों के लिए तैयार किया गया है जो केवल एक फ़ंक्शन कॉल का उपयोग करता है।

EasyConverter एसडीके के साथ, आपके मूल पीडीएफ का लेआउट बनाए रखा जाएगा।

दोनों समर्थन सी # इसलिए रुचि रखते हैं तो www.pdfonline.com पर eval संस्करणों को देखने के लिए स्वतंत्र महसूस करें। मैं विक्रेता के लिए काम करता हूं इसलिए इस सुझाव को अपने बच्चे से प्यार करने वाली मां के रूप में लें :-) मैं लंबे समय तक कोड स्निपेट के लिए stackoverflow.com ब्राउज़ कर रहा हूं, लेकिन हाल ही में पोस्टिंग शुरू कर दी है, इसलिए यदि आपके पास है या तो एपीआई के साथ कोई सवाल सिर्फ मुझे बताएं और मैं मदद कर सकता हूं। चीयर्स!

1

Docotic.Pdf library पीडीएफ फाइलों से टेक्स्ट और छवियों को निकाल सकता है।

आप केवल कुछ पृष्ठों से पूरे दस्तावेज़ से पाठ निकाल सकते हैं। लाइब्रेरी सादे पाठ और निर्देशांक के साथ पाठ भाग निकाल सकती है।

आप पीडीएफ से छवियां निकाले जा सकते हैं (जेपीईजी और टीआईएफएफ फाइलों के रूप में)। एक पीडीएफ से

अस्वीकरण

  • Extract images पीडीएफ़
  • से

    • Extract text:

      यहाँ अपने कार्य के लिए नमूने की एक जोड़ी है मैं बिट चमत्कार, पुस्तकालय के विक्रेता के लिए काम करते हैं।