जावा - पीडीएफबॉक्स - टेक्स्ट एक्सट्रैक्शन

मैं पीडीएफ से टेक्स्ट जानकारी निकालने के लिए पीडीएफबॉक्स का उपयोग कर रहा हूं। मैंने सफलतापूर्वक फ़ॉन्ट नाम, फ़ॉन्टफ़ेस, आकार, स्थिति इत्यादि जैसे सभी गुणों का विश्लेषण किया हैजावा - पीडीएफबॉक्स - टेक्स्ट एक्सट्रैक्शन

समस्या: मैं पीडीएफबॉक्स 1.2.1 (नवीनतम संस्करण) का उपयोग कर रहा हूं। TextPosition क्लास में getCharacter() अंतिम वर्ण को छोड़कर पूर्ण स्ट्रिंग देता है। अंतिम चरित्र एक अलग स्ट्रिंग के रूप में पार्स किया गया है।

पूर्व: "आप कैसे हैं" को "कैसे हैं" और "यू" (2 अलग तार) के रूप में पार्स किया गया है।

मैं न इसे उस तरह से क्या करना चाहते ..

किसी को भी इस करवाते आ गया है? .. हूँ मैं .. कुछ गलत ?? कर उत्तर के लिए प्रतीक्षा कर रहा है ..

धन्यवाद और सादर, Magggi

स्रोत

2010-07-28 Magggi

से डाउनलोड किया जा सकता है मुझे नहीं लगता कि आप इसे गलत इस्तेमाल कर रहे हैं। एक पीडीएफ है जो मैं उस रिटर्न ** प्रत्येक चरित्र ** के साथ एक अलग 'स्ट्रिंग' के रूप में काम करता हूं। दुर्भाग्यवश, मेरे पास वास्तव में आपके लिए कोई समाधान नहीं है। मैं भी जवाब जानना उत्सुक होगा। –

मैं पीडीएफ से पाठ की रेखाएं निकालने में सक्षम हूं। लेकिन प्रत्येक पंक्ति के भीतर, उपर्युक्त वर्णित विभाजन होता है। – Magggi

यह समस्या हल हो गया है।

PDFStreamEngine.java

if(spacingText == 0 && (i + codeLength) < (string.length - 1)) 
{ 
    continue; 
}

में processEncodedText(byte[] string) में निम्न कोड,

if(spacingText == 0 && (i + codeLength) < (string.length)) 
{ 
    continue; 
}

सादर को बदला जाना चाहिए मैगी

स्रोत

2010-08-30 12:09:29 Magggi

हां। यह समस्या पीडीएफबॉक्स द्वारा हल की जाती है।
पीडीएफबॉक्स के नवीनतम संस्करण का प्रयास करें। नवीनतम संस्करण http://pdfbox.apache.org/download.html

स्रोत

2012-06-30 05:17:54 Neeraj

जावा - पीडीएफबॉक्स - टेक्स्ट एक्सट्रैक्शन

उत्तर

संबंधित मुद्दे