2011-06-28 15 views
7

के माध्यम से दस्तावेज़ को txt में कनवर्ट करें हम एक प्रोग्राम खोज रहे हैं जो हमें एक दस्तावेज़ या डॉक्क्स दस्तावेज़ को txt फ़ाइल में कनवर्ट करने की अनुमति देता है। हम लिनक्स के साथ काम कर रहे हैं और हम ऐसी वेबसाइट शुरू करना चाहते हैं जो उपयोगकर्ता अपलोड की गई दस्तावेज़ फ़ाइलों को परिवर्तित करे। हम ओपन ऑफिस/लिबर ऑफिस का उपयोग नहीं करना चाहते हैं क्योंकि हमारे पास इसका बुरा अनुभव है। पांडोक दस्तावेज़ फ़ाइलों को संभाल नहीं सकता:/कमांडलाइन

किसी के पास कोई विचार है?

उत्तर

1

यहां एक perl project है जो ऐसा करने का दावा करता है। मैंने document.xml पर XSLT का उपयोग करके हाथ से भी बहुत कुछ किया है। डॉक्स फ़ाइल स्वयं ही एक ज़िप फ़ाइल है, आप इसे अनजिप कर सकते हैं और तत्वों का निरीक्षण कर सकते हैं। मैं कहूंगा कि विशिष्ट फाइलों के लिए करना मुश्किल नहीं है, लेकिन सामान्य मामले में करना मुश्किल है, क्योंकि वर्डप्रेस आंतरिक रूप से चीजों को कैसे स्टोर करता है, और आंतरिक प्रतिनिधित्व का अंतर कैसे होता है।

3

यदि आप .doc या .docx प्रारूप के साथ काम कर रहे हैं, तो आपको दो अलग-अलग कमांड-लाइन टूल का उपयोग करना होगा।

.doc उपयोग catdoc के लिए:

catdoc foo.doc > foo.txt 

.docx उपयोग docx2txt के लिए:

docx2txt foo.docx 

बाद एक फ़ाइल मूल रूप में एक ही निर्देशिका में foo.txt कहा जाता है का उत्पादन करेगा।

मुझे यकीन नहीं है कि आप किस लिनक्स वितरण का उपयोग कर रहे हैं, लेकिन उदाहरण के लिए, कैटडोक और डॉक्क्स 2txt दोनों उबंटू रिपॉजिटरीज़ से उपलब्ध हैं।

संबंधित मुद्दे