मैं किसी दस्तावेज़ में कौन से पेज (पेजों) को खोजने के लिए एक सुरुचिपूर्ण समाधान ढूंढ रहा हूं, एक निश्चित शब्द होता है कि मैंने एक पायथन शब्दकोश/सूची में संग्रहित किया है।दस्तावेज़ में पृष्ठ (ओं) पर शब्द ढूंढना
मैंने पहली बार इनपुट के रूप में। डॉक्स प्रारूप को माना और PythonDocx पर एक नज़र डाली जिसकी एक खोज फ़ंक्शन है, लेकिन जाहिर है कि वास्तव में डॉक्स/एक्सएमएल प्रारूप में कोई पृष्ठ विशेषता नहीं है। यदि मैं दस्तावेज़ को पार्स करता हूं तो मैं xml पेड़ में <w:br w:type="page"/>
घटनाओं को देख सकता हूं लेकिन दुर्भाग्य से ये गैर-मजबूर पृष्ठ ब्रेक नहीं दिखाते हैं।
मैंने फ़ाइलों को पहले पीडीएफ में कनवर्ट करने पर भी विचार किया और दस्तावेज पेज-वार को पार्स करने के लिए PDFminer जैसे कुछ का उपयोग किया।
वहां एक स्ट्रिंग के लिए एक .docx दस्तावेज़ खोज और पृष्ठों लौट ऐसा
[('foo' ,[1, 4, 7 ]), ('bar', [2]), ('baz', [2, 5, 8, 9)]
मुझे लगता है कि आप यही देख रहे हैं: [लिंक] (http://stackoverflow.com/questions/12571905/finding-on-which-page-a-search-string-is-located-in -ए-पीडीएफ-दस्तावेज़-उपयोग-पायथन) – Roxy
@birgit क्या आप अभी भी इस विषय पर समाधान ढूंढ रहे हैं? – mabe02
@ mabe02 मुझे अभी तक कोई समाधान समाधान नहीं मिला है:/लेकिन – birgit