जो लोग मेरी वेबसाइट पर सामग्री भेजते हैं, वे Word का उपयोग करते हैं, इसलिए मुझे HTML में कनवर्ट करने के लिए बहुत सारे वर्ड दस्तावेज़ मिलते हैं। मैं केवल मूल स्वरूपण - शीर्षक, सूचियों और जोर - कोई छवियों को संरक्षित करना चाहता हूं।एमएस वर्ड या लिबर ऑफिस से एचटीएमएल
जब मैं उन्हें "एचटीएमएल के रूप में सहेजें" के साथ लिबर ऑफिस के रूप में परिवर्तित करता हूं, परिणामी फाइलें बहुत बड़ी हैं, उदाहरण के लिए, 112 के की एक दस्तावेज़ फ़ाइल 450K एचटीएमएल बन जाती है, इसमें से अधिकांश बेकार फैन और स्पैन टैग (किसी कारण से, प्रत्येक एकल विराम चिह्न अपने स्वयं के काल में संलग्न है!)।
मैंने इस स्क्रिप्ट की कोशिश की: http://www.techrepublic.com/blog/opensource/how-to-convert-doc-and-odf-files-to-clean-and-lean-html/3708 साफ और sed के आधार पर, और आकार को लगभग 150K तक घटा दिया, लेकिन अभी भी कई बेकार स्पैन हैं।
मैंने कॉम्पोज़र में कॉपी और अतीत करने की कोशिश की - एक HTML संपादक, और फिर HTML के रूप में सहेजें; लेकिन यह मेरे सभी गैर-लैटिन (हिब्रू) अक्षरों को "ְ" जैसी इकाइयों में परिवर्तित कर दिया, जिसने आकार को 750K तक बढ़ा दिया!
मैं docvert की कोशिश की: https://github.com/holloway/docvert/issues/6 लेकिन पता चला कि यह जो निर्भरता की एक अंतहीन मार्ग की तरह लगता है एक अजगर पुस्तकालय है कि एक और पुस्तकालयों की आवश्यकता है, आदि, की आवश्यकता है ...
वहाँ स्वच्छ HTML बनाने के लिए एक आसान तरीका है कार्यालय दस्तावेजों से?
यह शायद एक डुप्लिकेट है: http://stackoverflow.com/questions/67964/what-is-the-best-free-way-to-clean-up-word-html/1813798#1813798 –