2015-06-19 4 views
5

में पृष्ठभूमि पाठ (वॉटरमार्क) और वास्तविक पाठ के बीच अंतर करें मेरे पास इसकी पृष्ठभूमि में वॉटरमार्क के साथ pdf है। पृष्ठभूमि में वॉटरमार्क या एनोटेशन के साथ किसी भी शब्द को हाइलाइट करने के लिए स्कैनिंग शुरू करते समय, इसे चुना जाता है क्योंकि यह पहले स्पर्श क्षेत्र में पाया जाता है।

मैं टेक्स्ट स्कैन करने के लिए CGPDFScanner का उपयोग कर रहा हूं।

मेरा प्रश्न यह है कि स्कैन किए गए पाठ को पृष्ठभूमि में या पीडीएफ में वास्तविक पाठ पर टेक्स्ट कैसे लिखा जाता है? मैं मानक पाठ और एनोटेशन टेक्स्ट के बीच अंतर कैसे करूं?आईओएस - पीडीएफ

धन्यवाद।

+1

दुर्भाग्यवश मैं आपका पीडीएफ डाउनलोड नहीं कर सकता, मैं फ़ाइल साझाकरण सेवा के पृष्ठ पर बटन दबाता हूं लेकिन पृष्ठ केवल ताज़ा करता है। ऐसा कहा जा रहा है कि, हालांकि, आपके पास सामान्य रूप से "पृष्ठभूमि" और "वास्तविक" पाठ के बीच अंतर करने का कोई मौका नहीं है। * टैग किए गए * पीडीएफ के मामले में आपको एक मौका मिल सकता है, वाटरपार्क को आर्टिफैक्ट डेटा के रूप में टैग किया जा सकता है। – mkl

+0

@ एमकेएल: कृपया मेरी टिप्पणी को मेरे ऊपर उठाने के लिए एक वास्तविक उत्तर में बदलें। :-) –

+0

@mkl क्षमा करें मैं फिर से फ़ाइल साझा करूंगा। – Swaroop

उत्तर

3

आम तौर पर आपके पास "पृष्ठभूमि" और "असली" टेक्स्ट के बीच भरोसेमंद अंतर करने का कोई मौका नहीं है। टेक्स्ट को कुछ क्रम में पृष्ठ पर कहीं खींचा जाता है, और अग्रभूमि, पृष्ठभूमि, सामान्य पाठ, ... क्या है, मानव धारणा का विषय है और पीडीएफ सामग्री स्ट्रीम की संरचना में बिल्कुल दिखाई नहीं दे सकता है।

आप कुछ शिक्षित अनुमान का प्रयास कर सकते हैं, उदा। यह मानते हुए कि "असली" टेक्स्ट मजबूत रंगों में है जबकि पृष्ठभूमि टेक्स्ट हल्का रंगों में है, या "वास्तविक" पाठ क्षैतिज रेखाओं में व्यवस्थित किया गया है जबकि पृष्ठभूमि पाठ अक्सर अधिक विकर्ण होता है, लेकिन यह अनुमान है कि आखिरकार, भरोसा करने के लिए कुछ भी नहीं है ज़रूर।

दूसरी ओर, टैग किए गए पीडीएफ के मामले में आपको एक मौका मिल सकता है, वॉटरमार्क को आर्टिफैक्ट डेटा के रूप में टैग किया जा सकता है।

पीएस मैंने देखा कि आपने अपनी फ़ाइल फिर से साझा की है। आपके दस्तावेज़ के मामले में मैंने जो हेरिस्टिक्स का उल्लेख किया है, वह काम करेगा, पृष्ठभूमि पाठ ग्रेश है और तिरछे मुद्रित है।

इस प्रकार, स्कैनिंग करते समय आपको भरने वाले रंग और/या रूपांतरण मैट्रिक्स का ट्रैक रखना होगा। जैसे ही स्कैनर टेक्स्ट पाता है, आप जानते हैं कि यह वर्तमान रंग और/या मैट्रिक्स मान के आधार पर पृष्ठभूमि या अग्रभूमि है या नहीं।

ध्यान रखें, हालांकि, यह सभी दस्तावेजों के साथ इतना आसान नहीं है।

+0

उत्तर के लिए धन्यवाद :)। मैंने वॉटरमार्क के पाठ की ऊंचाई और चौड़ाई के आधार पर एक अनुमान के बारे में सोचा। यह हेरिस्टिक्स में से एक हो सकता है? जबकि स्कैनिंग, आयताकार मुझे लगता है कि उस पाठ के लिए पृष्ठ का 3/4 वां हिस्सा ले रहा है, इसलिए मैं उस आधार पर भी सही तरीके से छोड़ने का निर्णय ले सकता हूं? या यह गलत हो सकता है? – Swaroop

+0

यह एक और ह्युरिस्टिक्स नियम भी है। लेकिन जागरूक रहें, हेरिस्टिक सभी के बाद अनुमान लगाएंगे और थोड़ी देर में हर बार असफल हो जाएंगे। – mkl

+0

ठीक है .. मदद के लिए बहुत बहुत धन्यवाद। :) – Swaroop