2011-02-05 10 views
6

मेरे पासरूबी में पीडीएफ से टेक्स्ट निकालें (मेरे पास पीडीएफ से लिंक है)

  http://www.downloads.com/help.pdf 

जैसे लिंक हैं, मैं इसे डाउनलोड करना चाहता हूं, और टेक्स्ट सामग्री प्राप्त करने के लिए इसे पार्स करना चाहता हूं।

मैं इसके बारे में कैसे जा सकता हूं? मैं टैग-इज़ (अगर ऐसा कोई शब्द भी है) निकालने की योजना है xxx15

उत्तर

14

आप या तो पीडीएफ-रीडर मणि का उपयोग कर सकते हैं (उदाहरण/text.rb उदाहरण सरल है और मेरे लिए काम किया है): https://github.com/yob/pdf-reader

या कमांड लाइन उपयोगिता pdftotext।

+0

है उस पर बात की एक अच्छी ट्यूटोरियल तरह वहाँ पसंद है? मैं रूबी के लिए नया हूं लेकिन सिर्फ उदाहरण कोड कॉपी करना मेरे लिए बुरा लगता है – theReverseFlick

+1

मैं नहीं कहूंगा कि उनका उदाहरण अपनाना एक बुरी बात है। यहां एक ट्यूटोरियल है जो आपको रूचि दे सकता है और अवधारणाओं को थोड़ा सा समझा सकता है: http://pullmonkey.com/2010/01/18/ruby-pdf-reader-gem-tutorial/ – seeingidog

3

Yomu gem आपके लिए पीडीएफ (साथ ही साथ अन्य एमआईएमई प्रकार) से पाठ निकालने में भी सक्षम होगा।

require 'yomu' 
Yomu.new(file_path).text 
+0

यह जावा के लिए पूछता है। – Nakilon

+0

मैंने कुछ रत्नों की कोशिश की है और यह सबसे सटीक पाया है। –

0

तुम भी एक रत्न मैं बनाए रखने, कि पीडीएफ, डॉक, docx और स्केच सहित दस्तावेज़ स्वरूपों के एक नंबर से पाठ निकासी के लिए एक रूबी इंटरफेस प्रदान करता है DocRipper पर एक नज़र ले जा सकते हैं,।

डॉक्रिपर हुड के नीचे पीडीएफटीटेक्स्ट का उपयोग करता है और जावा निर्भरताओं से बचाता है।

require 'doc_ripper' 

DocRipper::rip('/path/to/file.pdf') => "Pdf text" 

आप रूबी मानक पुस्तकालय का उपयोग कर दूरस्थ फ़ाइलें पढ़ सकते हैं:

require 'open-uri' 
require 'doc_ripper' 

tmp_file = open("some_uri") 
DocRipper::rip(tmp_file.path) 
+0

हाय। क्या आप कृपया स्थानीय फ़ाइल पथ की बजाय फ़ाइल पथ से लिंक के साथ डॉक्रिपर का उपयोग करने के लिए सिंटैक्स को बता सकते हैं? – Sagar

+0

@ सागर क्या आप रिमोट फ़ाइल पथ का जिक्र कर रहे हैं? – Paul

+0

हाँ !!! मैं अमेज़ॅन एस 3 स्टोरेज का उपयोग कर रहा हूं इसलिए मेरे पास केवल फाइलों के लिंक होंगे। – Sagar

संबंधित मुद्दे