पीडीएफबॉक्स

के साथ पीडीएफ फाइलों (विशेष रूप से तालिकाओं के साथ) को पार्स करना मुझे एक पीडीएफ फाइल को पार्स करने की ज़रूरत है जिसमें टैब्यूलर डेटा शामिल है। मैं बाद में परिणाम (स्ट्रिंग) को पार्स करने के लिए फ़ाइल टेक्स्ट निकालने के लिए PDFBox का उपयोग कर रहा हूं। समस्या यह है कि टेक्स्ट निष्कर्षण काम नहीं करता है क्योंकि मुझे टैब्यूलर डेटा की उम्मीद है। उदाहरण के लिए, मैं एक फ़ाइल जो इस तरह एक मेज शामिल है तो फिरपीडीएफबॉक्स

+----------------------------------------------------------------+ 
| AIH | Value | Complexity      | Financing  | 
|  |  | Medium | High | Not applicable | MAC/Other | FAE | 
+----------------------------------------------------------------+ 
| xyz | 12.43 | 12.34 |  |    | 12.34  |  | 
+----------------------------------------------------------------+ 
| abc | 1.56 |  | 1.56 |    |   | 1.56| 
+----------------------------------------------------------------+

मैं PDFBox का उपयोग करें: (7 कॉलम: पहले दो हमेशा डेटा है, केवल एक जटिलता स्तंभ डेटा है, केवल एक ही वित्त पोषण स्तंभ डेटा है) : डेटा की

PDDocument document = PDDocument.load(pathToFile); 
PDFTextStripper s = new PDFTextStripper(); 
String content = s.getText(document);

उन दो लाइनें इस तरह निकाला जा होगा:

xyz 12.43 12.4312.43 
abc 1.56 1.561.56

पिछले दो संख्याओं के बीच कोई सफेद रिक्त स्थान हैं, लेकिन यह सबसे बड़ी समस्या नहीं है। समस्या यह है कि मुझे नहीं पता कि पिछले दो संख्याओं का क्या अर्थ है: मध्यम, उच्च, लागू नहीं है? मैक/अन्य, एफएई? मेरे पास संख्याओं और उनके कॉलम के बीच संबंध नहीं है।

मेरे लिए पीडीएफबॉक्स लाइब्रेरी का उपयोग करने की आवश्यकता नहीं है, इसलिए एक अन्य लाइब्रेरी का उपयोग करने वाला समाधान ठीक है। मैं जो चाहता हूं वह फ़ाइल को पार्स करने में सक्षम होना चाहिए और यह जानना कि प्रत्येक पार्स किए गए नंबर का क्या अर्थ है।

पीडीएफबॉक्स

उत्तर

संबंधित मुद्दे