में पीडीएफ कन्वर्ट करने के लिए पर सिफारिश के लिए खोज रहे मैं कुछ एक आगामी नीलामी में सूचीबद्ध संपत्तियों पर कुछ विश्लेषण करना चाहते हैं। दुर्भाग्यवश, नीलामी चलाने वाला शहर सूचनात्मक प्रारूप में जानकारी प्रकाशित नहीं करता है बल्कि नीलामी के लिए जाने वाली संपत्तियों के 700+ page PDF प्रदान करता है।कैसे संरचित प्रारूप
मुझे आश्चर्य है कि समुदाय के पास कोई विचार है कि मैं पार्सिंग से कैसे संपर्क कर सकता हूं, पीडीएफ ने डीबी में सम्मिलन के लिए एक संरचित प्रारूप में या गुणों की स्प्रेडशीट बनाने के लिए कहा।
यहां प्रत्येक पृष्ठ का प्रतिनिधित्व करता है की एक छवि है:
और यहाँ एक पृष्ठ है कि कुछ गुण को सूचीबद्ध करता है:
मैं अजगर और गहरे लाल रंग का साथ सहज तो मैं किसी भी मुद्दे नहीं है कर रहा हूँ एक समाधान को पटकथा, लेकिन क्योंकि "कॉलम" और उन कॉलम में डेटा एक साथ बंधे आवश्यक नहीं हैं, ऐसा लगता है कि यह एक संदिग्ध प्रस्ताव होगा।
किसी भी विचार की सराहना की जाएगी।
मेरे सोचा पाठ कनवर्टर करने के लिए एक पीडीएफ उपयोग करने के लिए और फिर पाठ फ़ाइल (यह सोचते हैं कि कनवर्टर आप एक उम्मीद के मुताबिक उत्पादन प्रारूप देता है) को पार्स होगा। –
हाँ, मैंने कोशिश की। मैंने कोशिश की एक रूबी परियोजना है (https://github.com/kitplummer/pdftohtmlr) और यह जंक थूक गया। – doremi
पाठ के बारे में क्या? ऐसा लगता है कि यह एचटीएमएल करता है। –