2009-10-25 16 views
19

पर पीडीएफ पुनर्प्राप्त करें मुझे पता है कि लाटेक्स से पीडीएफ कैसे बनाते हैं। क्या मैंने पहले बनाए गए पीडीएफ से लाटेक्स-कोड निकालने का कोई तरीका है? अगर कोई मुझे पीडीएफ भेजता है और मुझे स्वरूपण पसंद है तो कैसे होगा। क्या मैं इसे लाटेक्स निकाल सकता हूं?लाटेक्स

+1

http://tex.stackexchange.com/questions/8503/how-to-convert-pdf-to-latex –

उत्तर

12

लाटेक्स में पीडीएफ में एक-से-एक रूपांतरण नहीं है। आपके पहले प्रश्न के संबंध में, मेरा मानना ​​है कि ऐसा रूपांतरण तकनीकी रूप से संभव हो सकता है, लेकिन मुझे विश्वास नहीं है कि ऐसा करने के लिए एक आवेदन अभी तक मौजूद है। जिस तरह से असेंबलर को उच्च स्तर की भाषा में वापस ले जाया जा सकता है, वैसे ही ऐसा करने का एक तरीका भी है। हालांकि - एक पीडीएफ को डेटा के सभी मामलों को शामिल करने की अनुमति है - ऑटोकैड ड्रॉइंग, जेपीईजी ग्राफिक्स, फ़ॉन्ट फाइल, फॉर्म, डिजिटल हस्ताक्षर इत्यादि। लाटेक्स को पता नहीं है कि ये चीजें क्या हैं। तो दूसरे प्रश्न के उत्तर में कोई नहीं है - किसी भी पीडीएफ दस्तावेज़ से समकक्ष लाटेक्स निकालने का कोई तरीका नहीं है।

4

लघु संस्करण: नहीं

लांग संस्करण: यह decompiling की तरह एक बहुत कुछ है: आप तकनीकी रूप से कर सकता है, लेकिन यह अनुमान लगा और heuristics के बहुत सारे शामिल होगा।

मैं पीडीएफ धर्मशाला से परिचित नहीं हूँ, लेकिन यह होगा की संभावना सेट फोंट/आकार/स्थिति सीधे बजाय एक प्रारूप को परिभाषित करने और LaTeX में हेडर और इस तरह करने के लिए इसे लागू करने, की तरह की।

6

यह केवल तभी संभव है यदि आप दस्तावेज़ के स्रोत को पीडीएफ फ़ाइल में एम्बेड करते हैं। ऐसा करने के लिए attachfile पैकेज देखें।

+0

वैकल्पिक रूप से, आप टैग किए गए पीडीएफ का उपयोग करके सुराग देने वाला मेटाडेटा जोड़ सकते हैं। –

+0

हां, यह सच है, लेकिन मुझे इस मार्ग के माध्यम से लाइटिक्स स्रोत को पीडीएफ में बदलने के पूर्व-मौजूदा तरीके से अवगत नहीं है। कोई सुझाव? –

+1

क्षमा करें, हाल ही में आपका प्रश्न नहीं देखा। रॉस मूर ने पीडीएफटीएक्स परिवर्धन का प्रदर्शन किया है जो पीडीएफ की पीढ़ी की अनुमति देता है जहां गणित को टेक्स कोड के साथ टैग किया जाता है जो उन्हें उत्पन्न करता है। यह प्रश्न के पूर्ण उत्तर से एक लंबा रास्ता है, लेकिन मुझे लगता है कि यह दिखाता है कि यह * संभव * है। एक टिप्पणी में फिट बैठने के अलावा मैं इसके बारे में और कुछ कहना चाहता हूं - मैं बस इतना कहूंगा कि यह एक महान एमएससी थीसिस बना सकता है। –

1

संबंधित सवाल पर मेरा उत्तर देखें (how to turn a DVI to tex?)

बढ़ाना - वहाँ वर्ण पढ़ने के क्रम में होने के लिए कोई आवश्यकता नहीं है (मैं पाया है पीडीएफ़ जहां sdrawkcab sdaer txet का हिस्सा (और निर्देशांक पर निर्भर करता है) । यही कारण है कि बहुत मुश्किल फिर से संगठित करने के रूप में यह फ़ॉन्ट मैट्रिक्स पर निर्भर कर सकता डेटा के लिए सबसे अच्छा तरीका है। कौन सा भयावह ASCII86 प्रोटोकॉल का उपयोग कर सकते हैं।

-1

यह texmacs, जो पीडीएफ फाइलों का एक आयात भी शामिल है के साथ काम कर सकते हैं।

+0

texmacs छोड़ दिया गया है कि इस समस्या को हल करने की कोशिश कभी नहीं की। –

+0

अभी भी, मैंने इसे पहले से ही किया है। – Aif

+0

मुझे और बताएं! मैंने कई साल पहले टेक्सास को एक समस्या के लिए एक अतिरंजित दृष्टिकोण के रूप में लिखा था जिसे क्रांति की आवश्यकता नहीं थी। मुझे लगता है कि आपके पास एक अलग दृश्य है? –

1

पीडीएफ फाइलों से खनन (इसके जटिल प्रारूप के कारण) खोलना है उन्हें एडोब इलस्ट्रेटर के साथ। फिर पीडीएफ फ़ाइल को svg फ़ाइल में कनवर्ट करें और अपने आप पर कुछ मुश्किल कोड लिखने वाले एक svg पार्सर लाइब्रेरी का उपयोग करें।

एक कुशल svg पार्सर lib batik

(लिनक्स के लिए यह svg करने के लिए पीडीएफ परिवर्तित करने के लिए काफ़ी जटिल है: calcmaster.net/personal_projects/pdf2svg/) है

पुनश्च मैं किया गया है अपने प्रश्न के अपने दूसरे भाग के समाधान को खोजने के लिए बहुत कोशिश कर रहा है, लेकिन मैंने किताबों जैसे "विजुअलाइजिंग डेटा, बेन फ्राई, ओ'रेली" में पाया है कि पीडीएफ विशेष रूप से एडोब पीडीएफ पार्स के लिए जटिल है, इसलिए इसके बजाय एक svg पार्सर lib का उपयोग करें।

+0

ओपी ने लिनक्स पर समाधान के लिए कहा ... –

1

इंकस्केप पीडीएफ आयात कर सकता है और फिर "पीएसटीएक्स मैक्रोज़ के साथ लाटेक्स" के रूप में सहेज सकता है जो अनिवार्य रूप से पोस्टटेस्क्रिप्ट को लाटेक्स स्रोत में एम्बेड करके काम करता है। यह इसके लायक से अधिक परेशानी है, और परिणामी लेटेक्स स्रोत को पीडीएफ के रूप में आउटपुट होने से पहले प्रीप्रोसेस्ड किया जाना चाहिए।

वैसे भी, कुछ कल्पित पीडीएफ के साथ लाटेक्स कंपाइलर के साथ भी, आपको कुछ ऐसा मिलेगा जहां प्रत्येक चरित्र या शब्द की स्थिति अलग-अलग होती है - जो आप चाहते हैं उसके विपरीत, जो मैं अनुमान लगा रहा हूं एक क्षैतिज रेखा के नीचे कुछ संख्या के बजाय, एक अंश के अंश का आधा होना चाहिए।

3

पीडीएफटीएचटीएमएल और gnuhtml2latex का उपयोग कर अपने पीडीएफ को एचटीएमएल और अपने एचटीएमएल में टेक्स में कनवर्ट करना संभव है।

असल में, आप 2 चरणों में लाटेक्स रूपांतरण के लिए पीडीएफ कर रहे हैं। नतीजा अभी भी "एक हैमबर्गर से गाय बनाने" जैसा है, लेकिन कुछ सफाई स्क्रिप्ट के संयोजन में परिणाम बहुत सभ्य हो सकता है।

ग्लोबलब्लिंडस्पॉट पर ब्लॉग पोस्ट "Rudimentary PDF to LaTeX conversion in Linux" एक उदाहरण बैश स्क्रिप्ट है जो एक .pdf को .tex फ़ाइल में परिवर्तित करता है और वह एक .pdf फ़ाइल में फिर से परिवर्तित होता है।

8

एक उपकरण है जो ओसीआर की तरह पीडीएफ फाइलें पढ़ता है और लेटेक्स-कोड को फिर से बनाने की कोशिश करता है। यह लगभग सही है और "Infty Reader" कहा जाता है! क्योंकि लेटेक्स काफी विस्तार योग्य है, मुझे नहीं लगता कि यह सभी साफ प्रारूपों को सही तरीके से प्राप्त करता है।

+1

इन्फटाइडर केवल एमएस विंडोज के लिए है। –