आम तौर पर आपके पास "पृष्ठभूमि" और "असली" टेक्स्ट के बीच भरोसेमंद अंतर करने का कोई मौका नहीं है। टेक्स्ट को कुछ क्रम में पृष्ठ पर कहीं खींचा जाता है, और अग्रभूमि, पृष्ठभूमि, सामान्य पाठ, ... क्या है, मानव धारणा का विषय है और पीडीएफ सामग्री स्ट्रीम की संरचना में बिल्कुल दिखाई नहीं दे सकता है।
आप कुछ शिक्षित अनुमान का प्रयास कर सकते हैं, उदा। यह मानते हुए कि "असली" टेक्स्ट मजबूत रंगों में है जबकि पृष्ठभूमि टेक्स्ट हल्का रंगों में है, या "वास्तविक" पाठ क्षैतिज रेखाओं में व्यवस्थित किया गया है जबकि पृष्ठभूमि पाठ अक्सर अधिक विकर्ण होता है, लेकिन यह अनुमान है कि आखिरकार, भरोसा करने के लिए कुछ भी नहीं है ज़रूर।
दूसरी ओर, टैग किए गए पीडीएफ के मामले में आपको एक मौका मिल सकता है, वॉटरमार्क को आर्टिफैक्ट डेटा के रूप में टैग किया जा सकता है।
पीएस मैंने देखा कि आपने अपनी फ़ाइल फिर से साझा की है। आपके दस्तावेज़ के मामले में मैंने जो हेरिस्टिक्स का उल्लेख किया है, वह काम करेगा, पृष्ठभूमि पाठ ग्रेश है और तिरछे मुद्रित है।
इस प्रकार, स्कैनिंग करते समय आपको भरने वाले रंग और/या रूपांतरण मैट्रिक्स का ट्रैक रखना होगा। जैसे ही स्कैनर टेक्स्ट पाता है, आप जानते हैं कि यह वर्तमान रंग और/या मैट्रिक्स मान के आधार पर पृष्ठभूमि या अग्रभूमि है या नहीं।
ध्यान रखें, हालांकि, यह सभी दस्तावेजों के साथ इतना आसान नहीं है।
दुर्भाग्यवश मैं आपका पीडीएफ डाउनलोड नहीं कर सकता, मैं फ़ाइल साझाकरण सेवा के पृष्ठ पर बटन दबाता हूं लेकिन पृष्ठ केवल ताज़ा करता है। ऐसा कहा जा रहा है कि, हालांकि, आपके पास सामान्य रूप से "पृष्ठभूमि" और "वास्तविक" पाठ के बीच अंतर करने का कोई मौका नहीं है। * टैग किए गए * पीडीएफ के मामले में आपको एक मौका मिल सकता है, वाटरपार्क को आर्टिफैक्ट डेटा के रूप में टैग किया जा सकता है। – mkl
@ एमकेएल: कृपया मेरी टिप्पणी को मेरे ऊपर उठाने के लिए एक वास्तविक उत्तर में बदलें। :-) –
@mkl क्षमा करें मैं फिर से फ़ाइल साझा करूंगा। – Swaroop