जब मैं अपनी पीडीएफ फाइलों से टेक्स्ट निकालने का प्रयास करता हूं, तो ऐसा लगता है कि अलग-अलग शब्दों के बीच सफेद रिक्त स्थान डालें।पीडीएफबॉक्स शब्द के भीतर सफेद रिक्त स्थान जोड़ रहा है
मैं इस पेज के डाउनलोड अनुभाग में नमूना फ़ाइल निम्न पर pdfbox एप्लिकेशन के 1.6.0.jar (नवीनतम संस्करण) का उपयोग कर रहा: http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training
मैं कई अन्य पीडीएफ फाइलों के साथ की कोशिश की है और यह लगता है कई पृष्ठों पर भी ऐसा ही करें।
मैं निम्न करें:
जावा जार pdfbox एप्लिकेशन के 1.6.0.jar ExtractText फोर्स -console ~/डेस्कटॉप/ped प्रशिक्षण pdf.pdf
डाउनलोड की गई फ़ाइल परऔर आप करेंगे कंसोल पर परिणाम में गलत तरीके से डाला निम्नलिखित में रिक्त स्थान देखें: "। • ch ildren schoo एल में चलने के लिए सक्षम हैं, तो सुरक्षित रूप से इस भीड़ को कम कर सकता"
"• बाद में जीवन के लिए अच्छा Hab अपनी विकसित।"
"www.sheff ield.gov.uk"
"आगे सोचो !, क Ich पर आधारित है"
आदि आदि
आप शब्दों है ऊपर के कई देख सकते हैं किसी भी कारण से उनके बीच की जगह मैं समझ सकता हूं।
मैं उबंटू पर हूं और सूर्य के जेडीके 1.6 चला रहा हूं।
मैंने कई अलग-अलग पीडीएफ फाइलों पर यह कोशिश की है और मंचों पर समाधान खोजने की कोशिश की है, वही बग थे लेकिन सभी को हल किया गया था।
कोई मदद या अगर किसी और को एक ही समस्या है तो कृपया टिप्पणी करें। यह खोज के लिए सामग्री को अनुक्रमणित करने में बड़ी समस्या पैदा कर रहा है।
धन्यवाद जुक्का, कभी-कभी यह समझने में राहत होती है कि कुछ क्यों उम्मीद नहीं कर रहा है और यह भी कि मैं कुछ भी नहीं कर रहा हूं जो समस्या पैदा कर रहा है। –
यदि आप ल्यूसीन का उपयोग कर रहे हैं तो इस तरह के शब्दकोष का निर्माण कैसे करें इसका एक उदाहरण यहां दिया गया है। [लुसीन में दस्तावेज़ टर्म वेक्टर निकालने के लिए कैसे करें] (http://stackoverflow.com/a/8901758/165085) –