मेरे पास पीडीएफ का एक गुच्छा है (कुछ 100s)। उनके पास उचित संरचना नहीं है और न ही उनके पास विशेष क्षेत्र हैं। उनके पास बहुत सारे पाठ हैं।मैं इंडेक्स पीडीएफ फाइलों और खोजशब्दों की खोज कैसे करूं?
मुझे क्या करना कोशिश कर रहा हूँ क्या:
सूचकांक पीडीएफ़ और सूचकांक के खिलाफ कुछ कीवर्ड के लिए खोज। मुझे यह जानने में दिलचस्पी है कि क्या यह विशेष कीवर्ड पीडीएफ दस्तावेज़ में है और यदि ऐसा है, तो मुझे वह लाइन चाहिए जहां कीवर्ड मिल जाए। यदि मैंने पीडीएफ दस्तावेज़ में 'Google' की खोज की है, तो उस शब्द में, मैं देखना चाहता हूं कि 'Google एक बेहतरीन खोज इंजन है' जो पीडीएफ में रेखा है।
कैसे मैं ऐसा करने का फैसला किया:
या तो उपयोग SOLR या हूँश लेकिन SOLR इनबिल्ट पीडीएफ समर्थन के लिए अच्छी लग रही है। मैं पाइथन में कोड करना पसंद करता हूं और सनबर्स्ट एसओएलआर पर एक रैपर है जो मुझे पसंद है। एसओएलआर का नमूना/उदाहरण प्रोजेक्ट में कुछ मूल्य तुलना आधारित स्कीमा फ़ाइल है। अब मुझे यकीन नहीं है कि क्या मैं अपनी समस्या का उत्तर देने के लिए एसओएलआर का उपयोग कर सकता हूं।
आप क्या सुझाव देते हैं? किसी भी इनपुट की बहुत सराहना की है।
क्या आप प्रत्येक पीडीएफ को प्रत्येक शब्द या वाक्यांश में सूचीबद्ध करने का प्रस्ताव कर रहे हैं? यदि नहीं, तो आप कीवर्ड की एक सूची कैसे तैयार करेंगे? – smci
मेरे पास वास्तव में कीवर्ड की एक सूची है। मैं पीडीएफ में सभी सामग्री को इंडेक्स करना चाहता हूं और फिर अपने कीवर्ड का उपयोग करके उस इंडेक्स के खिलाफ एक खोज चलाता हूं। – ThinkCode