मैं एक पीडीएफ फ़ाइल से टेक्स्ट सामग्री प्राप्त करने के लिए vex.net पर itextsharp का उपयोग कर रहा हूं। समाधान कुछ फ़ाइलों के लिए ठीक काम करता है लेकिन अन्य लोगों के लिए भी नहीं। समस्या टोकन stringvalue (खाली वर्ग बक्से का एक सेट)Itextsharp टेक्स्ट निष्कर्षण
token = New iTextSharp.text.pdf.PRTokeniser(pageBytes)
While token.NextToken()
tknType = token.TokenType()
tknValue = token.StringValue
मैं सामग्री की लंबाई meassure कर सकते हैं शून्य पर सेट किया गया है, लेकिन मैं वास्तविक स्ट्रिंग सामग्री नहीं मिल सकता है।
मुझे एहसास हुआ कि यह पीडीएफ के फ़ॉन्ट के आधार पर होता है। अगर मैं कूरियर के साथ एक्रोबैट या पीडीएफ क्रिएटर का उपयोग कर पीडीएफ बनाता हूं (जिस तरह से मेरे विजुअल स्टूडियो एडिटर में डिफ़ॉल्ट फ़ॉन्ट है) तो मैं सभी टेक्स्ट सामग्री प्राप्त कर सकता हूं। यदि एक ही पीडीएफ एक अलग फ़ॉन्ट का उपयोग करके बनाया गया है तो मुझे खाली वर्ग बॉक्स मिल गए हैं।
अब सवाल है, मैं कैसे पाठ फ़ॉन्ट सेटिंग कुछ भी हो निकाल सकते हैं है?
धन्यवाद
+1 बल्कि सिर्फ एक पंक्ति –
से, कोड की एक पूरी उदाहरण देने के लिए यह संभव है 'एफ़टीपी सर्वर' iTextSharp का उपयोग करने पर फ़ाइल निकालने के लिए? – Munavvar
@ मणववार, दुर्भाग्य से मेरे पास ऐसा अनुभव नहीं था। लेकिन आमतौर पर आप फ़ाइल स्ट्रीम या बाइनरी के एफआरएस में एफ़टीपी से पढ़ सकते हैं और ItextSharp –