2012-02-04 5 views
5

मेरे पास कुछ पीडीएफ हैं और मैं एक्रोबैट रीडर से HTML फॉर्म में टेक्स्ट को काट और पेस्ट करने का प्रयास कर रहा हूं। ऐसा लगता है कि इनमें से कुछ फाइलें टेक्स्ट एन्कोडिंग के लिए यूनिकोड का उपयोग करती हैं (इसलिए मुझे संदेह है), इसलिए जब मैं HTML फॉर्म (फ़ायरफ़ॉक्स पर) पेस्ट करने का प्रयास करता हूं तो मुझे पठनीय पाठ के बजाय हेक्स वर्णों के साथ छोटे बक्से मिलते हैं। समस्या यह नहीं है कि पीडीएफ को ओसीआर नहीं किया गया है - जब मैं एक्रोबैट प्रो में ऐसा करने की कोशिश करता हूं तो यह कहता है कि ऐसा नहीं हो सकता क्योंकि फ़ाइल में पहले से ही प्रस्तुत करने योग्य टेक्स्ट है। क्या इससे निपटने का कोई तरीका है? उदाहरण के लिए क्या मैं कुछ प्रकार के जावास्क्रिप्ट को उस रूप में जोड़ सकता हूं जो रूपांतरण करेगा?गैर-ASCII एन्कोडिंग के साथ पीडीएफ से कट-पेस्ट कैसे करें?

उत्तर

8

क्या आप फ़ाइल से कॉपी किए गए पाठ को नोटपैड या वर्ड या किसी अन्य प्रोग्राम जैसे पेस्ट पेस्ट करने में सक्षम हैं?

कुछ पीडीएफ फाइलों को विशेष जानकारी के बिना उत्पादित किया जाता है जो उनके द्वारा पाठ के सफल निष्कर्षण के लिए महत्वपूर्ण है। एडोब टूल्स द्वारा भी। असल में, ऐसी फाइलों में ग्लाइफ-टू-कैरेक्टर मैपिंग जानकारी नहीं होती है।

ऐसी फाइलें प्रदर्शित और मुद्रित की जाएंगी, लेकिन उनसे टेक्स्ट ठीक से कॉपी/निकाला नहीं जा सकता है।

उदाहरण के लिए, डिस्टिलर ऐसी फाइलें उत्पन्न करता है जब "सबसे छोटा फ़ाइल आकार" प्रीसेट का उपयोग किया जाता है।

+1

वही परिणाम कोई फर्क नहीं पड़ता कि मैं इसे पेस्ट करता हूं - नोटपैड, वर्ड, आदि। मुझे लगता है कि आप पीडीएफ फ़ाइल के बारे में सही हैं। अगर मैं एक्रोबैट प्रो में यह फ़ाइल खोलता हूं, तो इसके कुछ टेक्स्ट कॉपी करें, फिर चिपचिपा नोट खोलें और टेक्स्ट पेस्ट करने का प्रयास करें, मुझे अक्षरों के बजाय बॉक्स मिलते हैं। तो यहां तक ​​कि एक्रोबैट भी इस पाठ से निपट नहीं सकता है। – Steve

1

यह संभव है कि पाठ में ऐसे वर्ण हों जो सही ढंग से कॉपी हो जाएं लेकिन आपका ब्राउज़र उपयुक्त फ़ॉन्ट की कमी के कारण उन्हें प्रदर्शित करने में असमर्थ है। एक पीडीएफ दस्तावेज में एम्बेडेड फोंट हो सकते हैं, इसलिए एडोब रीडर अक्षरों को ठीक दिखाता है, लेकिन ब्राउज़र में उन फोंट तक पहुंच नहीं है।

आप यहां वर्णों की प्रतिलिपि बनाने और पेस्ट करने का प्रयास कर सकते हैं (यह किसी भी तरह की समस्या के बारे में उपयोगी जानकारी हो सकता है)। आप Code200x fonts को भी डाउनलोड और इंस्टॉल कर सकते हैं, जिसमें आमतौर पर किसी भी चरित्र का सामना करना पड़ सकता है जिसे आप आम तौर पर सामना कर सकते हैं। (यह गारंटी नहीं है, लेकिन संभव है कि फ़ायरफ़ॉक्स आवश्यक होने पर स्वचालित रूप से उन फ़ॉन्ट्स का उपयोग करने में सक्षम होगा।)

+0

फोंट का प्रयास किया, कोई मदद नहीं। साथ ही, जब मैंने चार्स को चिपकाया और आईडीई (कॉमोडो) ने कहा कि डिफ़ॉल्ट एन्कोडिंग सीपी -1252 उपयुक्त नहीं था, और जब मैं यूनिकोड में एन्कोडिंग में बदल गया तो यह खुश हो गया। – Steve

3

मैं एक ही समस्या है ... वास्तव में यह यहाँ समझाया गया है: http://forums.adobe.com/thread/915012

मेरे समाधान एक्रोबेट का निर्यात उपकरण का उपयोग करने के लिए वर्ड पीडीएफ कन्वर्ट करने के लिए और उसके बाद जानकारी मैं इसे से की जरूरत है निकालने था।

यह निराशाजनक है लेकिन वह काम है।

मुझे लगता है कि एक और समाधान छवियों (जेपीईजी, पीएनजी, आदि) में पीडीएफ को परिवर्तित करना है और फिर एक ओसीआर प्रक्रिया चलाएं।

0

मुझे एक ही समस्या थी, लेकिन मैंने वेब ब्राउजर (मेरे मामले में क्रोम) के साथ पीडीएफ फ़ाइल खोलकर इसे हल किया। कॉपी-एंड-पेस्टिंग गैर-ASCII एन्कोडिंग क्रोम में ठीक काम करता है।

2
  1. एक्रोबैट में टेक्स्ट का चयन करें।
  2. राइट-क्लिक करें और संदर्भ मेनू से "स्वरूपण के साथ प्रतिलिपि बनाएँ" का चयन करें।
  3. पाठ को संसाधित करने के लिए प्रगति पट्टी की प्रतीक्षा करें।
  4. शब्द दस्तावेज़ में पेस्ट करें।
0

हमें एक पीडीएफ फ़ाइल से एक्सेल में साइरिलिक्स कॉपी/पेस्ट करने की कोशिश करने में समान समस्या थी।

हमने पाया सबसे आसान समाधान ब्राउज़र (क्रोम, मोज़िला या ओपेरा) के साथ .pdf खोलना था और वर्ड, एक्सेल में टेक्स्ट कॉपी/पेस्ट करना था।

यह आईई के साथ काम नहीं करता था, जैसा कि अपेक्षित था।

संबंधित मुद्दे