2009-12-09 12 views
5

मैं एक विश्वविद्यालय के छात्र हूँ और यह पाठ्यपुस्तकों फिर से खरीदने के लिए समय है। इस तिमाही में कक्षाओं के लिए 20 से अधिक किताबें हैं I आम तौर पर यह इतना बड़ा सौदा नहीं होगा, क्योंकि मैं केवल आईएसबीएन को अमेज़ॅन में कॉपी और पेस्ट करता हूं। हालांकि, आईएसबीएन को मेरी स्कूल की पुस्तक साइट पर एक छवि में परिवर्तित कर दिया गया है। मैं बस इतना करना चाहता हूं कि आईएसबीएन को एक स्ट्रिंग में प्राप्त करें, इसलिए मुझे प्रत्येक को हाथ से टाइप करने की ज़रूरत नहीं है। मैंने छवियों को टेक्स्ट में बदलने के लिए जीओसीआर का उपयोग किया है, लेकिन मैं इसे रूबी स्क्रिप्ट के साथ उपयोग करना चाहता हूं ताकि मैं प्रक्रिया को स्वचालित कर सकूं और अपने सहपाठियों के लिए भी ऐसा कर सकूं।ऑप्टिकल वर्ण के साथ रूबी और Ubuntu का उपयोग मान्यता

मैं साइट पर नेविगेट कर सकते हैं। मैं अपने कंप्यूटर (Ubuntu चल), GOCR के साथ छवि परिवर्तित पर एक फ़ाइल के लिए छवि को बचा सकता है, और अंत में एक फ़ाइल में सहेजें तो मैं तो उन्हें मेरी रूबी स्क्रिप्ट के साथ फिर से उपयोग कर सकते हैं?

उत्तर

2

एक शांत परियोजना की तरह लगता है, और भी मुश्किल नहीं होना चाहिए, अगर ISBN छवियों अलग-अलग फ़ाइलों में संग्रहीत हैं।

यह सब पृष्ठभूमि में चलाने जा सकता है:

  • डाउनलोड वेब पेज (शुद्ध/http)
  • सभी छवियों पर प्रत्येक पुस्तक के लिए मेटाडाटा + छवि फ़ाइल (पेपरक्लिप)
  • रन GOCR बचाने

आपको बस या यूआरएल की एक सूची एक क्रॉलर (मशीनीकरण) है और तो आप शायद (जो की पोस्ट देखें) विश्वविद्यालय एचटीएमएल पृष्ठों के लिए एक पार्सर लेखन कुछ ही मिनटों के खर्च करने के लिए की जरूरत है।

3

GOCR पहली बार में एक अच्छा विकल्प हो रहा है, लेकिन मैं क्या मेरे अपने "अनुसंधान" से बता सकते हैं से, गुणवत्ता दैनिक उपयोग के लिए काफी पर्याप्त नहीं है। छवि इनपुट के आधार पर शायद यह एक समस्या का कारण बन सकता है। यह आप के लिए बाहर काम नहीं करता है, गूगल डॉक्स, जो आप ओसीआर के लिए छवियों को अपलोड करने की अनुमति देता है की 'नई' सुविधा का प्रयास करें। इसके बाद आप कुछ Google API (टन वहाँ बाहर मैं gdata-ruby-util जो कुछ हैकिंग की आवश्यकता है, हालांकि उपयोग कर रहा हूँ देखते हैं,।

तुम भी Tesseract-ओसीआर ओसीआर भाग के लिए इस्तेमाल कर सकते हैं का उपयोग कर परिणाम प्राप्त कर सकते हैं, यह भी खुला स्रोत है और सक्रिय विकास में

पुनर्प्राप्ति भाग के लिए, मैं भी hpricot, सुपर-शक्तिशाली और लचीला के साथ चिपक जाएगा।

संबंधित मुद्दे