हर अब और फिर मुझे एक वर्ड डॉक्यूमेंट प्राप्त होता है जिसे मुझे एक वेब पेज के रूप में प्रदर्शित करना होता है। मैं वर्तमान में एमएस वर्ड द्वारा उत्पन्न एचटीएमएल सामग्री को पकड़कर इसे प्राप्त करने के लिए डीजेगो के फ्लैटपेज का उपयोग कर रहा हूं। जेनरेट एचटीएमएल काफी गन्दा है। क्या कोई बेहतर तरीका है जो पाइथन का उपयोग करके इस समस्या को हल करने के लिए बहुत ही सरल HTML उत्पन्न कर सकता है?आप वर्ड दस्तावेज़ को पायथन में बहुत सरल HTML में कैसे परिवर्तित करते हैं?
उत्तर
एक अच्छे समाधान में Google डॉक्स में अपलोड करना और उससे HTML संस्करण निर्यात करना शामिल है। (इसके लिए एक एपीआई होना चाहिए?)
यह बहुत से "साफ अप" करता है; सड़क के नीचे Beautiful Soup का उपयोग किसी भी और बदलाव के लिए किया जा सकता है, जैसा उचित हो। यह ग्रह पर सबसे शक्तिशाली और सुरुचिपूर्ण एचटीएमएल पार्सिंग लाइब्रेरी है।
यह पत्रकार कंपनियों के लिए एक ज्ञात मानक है।
यह निर्भर करता है कि आप कितने प्रारूपण और छवियों से निपट रहे हैं।
- गूगल डॉक्स:: मैं एक जोड़ी चीजों में से कोई एक कार्य करें शायद निकटतम आप मूल स्वरूपण और प्रयोग करने योग्य HTML के लिए मिल जाएगा।
- मार्कडाउन: एबंडन स्वरूपण। इसे एक सादा पाठ संपादक में पेस्ट करें, इसे मार्कडाउन के माध्यम से चलाएं और बाकी को हाथ से ठीक करें।
मैं Google डॉक से HTML कैसे प्राप्त करूं? क्या यह HTML विकल्प के रूप में डाउनलोड है? –
+1: वर्ड डॉक फाइलें * काम करने के लिए * बहुत कठिन हैं। ओपन ऑफिस सहित कई टूल उन्हें परिवर्तित करेंगे। Google डॉक्स में एक साधारण एपीआई है क्योंकि यह एक HTTP वेब सेवा है। –
एमएस वर्ड -> एचटीएमएल सिर्फ सादा बुराई है। मेरे पास एक क्लाइंट था जो मुझे 9 5 (!) पृष्ठ शब्द दस्तावेज़ था जिसमें सैकड़ों 'देखने के लिए स्थान' थे और कहते हैं, "इसे डेटाबेस में दर्ज करना आसान होना चाहिए।" Arrggghh! मैंने इसे किया और विशेषाधिकार के लिए उसे $ 100/घंटा बिल दिया, लेकिन मुझे लगता है कि मैंने दर्द की मात्रा को कम किया है। एचटीएमएल सबसे खराब था जो मुझे कभी भी काम करना पड़ा था। –
तुम भी Abiword/wvWare एक्सएचटीएमएल करने के लिए शब्द दस्तावेज़ कनवर्ट और फिर BeautifulSoup/ElementTree/आदि के साथ यह पार्स करने के लिए उपयोग कर सकते हैं। यदि आपको आवश्यकता हो तो इसे प्रीप्रोसेस करने के लिए। मेरे अनुभव में, एबियवर्ड वर्ड फाइलों को बदलने और अपेक्षाकृत साफ एक्सएचटीएमएल फाइलों का उत्पादन करने में एक बहुत अच्छा काम करता है।
मुझे यह उल्लेख करना चाहिए कि एब्यवर्ड कमांड लाइन पर चलाया जा सकता है, इसलिए इसे स्वचालित प्रक्रिया में एकीकृत करना आसान है।
मेरा सुपर-सरल ऐप WordOff में Word-exported HTML से क्रूफ़्ट की सफाई के लिए API है। एपीआई के माध्यम से पहली बार सहेजे जाने पर पहली बार आप अपने फ्लैट पेज मॉडल की सहेजने वाली विधि को ओवरराइड कर सकते हैं। कुछ ऐसा:
import urllib
import urllib2
def decruft(html):
data = urllib.urlencode({'html' : html})
req = urllib2.Request('http://wordoff.org/api/clean', data)
response = urllib2.urlopen(req)
return response.read()
def save(self, **kwargs):
if not self.pk: # only de-cruft when content is first added
self.content = decruft(self.content)
super(FlatPage, self).save(**kwargs)
वर्डऑफ इस तरह की चीज पर बहुत साफ है –
यदि आप स्थानीय रूप से वर्डऑफ का उपयोग करना चाहते हैं तो आप मॉड्यूल डाउनलोड कर सकते हैं और उसी परिणाम प्राप्त करने के लिए अपनी "सुपरक्लीन" विधि का उपयोग कर सकते हैं: https://raw.github.com/tomdyson/wordoff/ मास्टर/wordoff.py –
अरे टॉम, WordOff.org पहले से ही समाप्त हो गया है हालांकि – fedmich
वर्ड 2010 में "फ़िल्टर किए गए वेब पेज के रूप में सहेजने" की क्षमता है। यह एचटीएमएल के भारी बहुमत को खत्म कर देगा जो वर्ड सम्मिलित करता है। http://www.textfixer.com/html/convert-word-to-html.php
यह सरल HTML मार्कअप करने के लिए एक से स्वरूपित पाठ धर्मान्तरित बोल्ड, इटैलिक, लिंक और पैराग्राफ संरक्षण, लेकिन फ़ॉन्ट आकार और चेहरे के लिए टैग जोड़ने नहीं:
मैं इस वेब पेज पाया। वास्तव में मुझे कुछ समय बचाने के लिए क्या चाहिए।
यह आश्चर्यजनक है! ठीक वैसे ही काम करता है जैसा मैं चाहता हूं। – Justin
- 1. वर्ड दस्तावेज़
- 2. आप एनएसयूइंटर को एनएसएसटींग में कैसे परिवर्तित करते हैं?
- 3. आप अनचेक अपवाद कैसे दस्तावेज़ करते हैं?
- 4. आप किसी दस्तावेज़ को पूर्वावलोकन छवि में कैसे परिवर्तित करेंगे?
- 5. OpenXML वर्ड दस्तावेज़ (नेट)
- 6. आप एक char * with 0-value बाइट्स को एक पायथन स्ट्रिंग में कैसे परिवर्तित करते हैं?
- 7. आप अपनी जावास्क्रिप्ट को कैसे दस्तावेज़ करते हैं?
- 8. आप एक पायथन टाइम.स्ट्रक्चर_टाइम ऑब्जेक्ट को डेटाटाइम ऑब्जेक्ट में कैसे परिवर्तित करते हैं?
- 9. वर्ड दस्तावेज़
- 10. आप स्ट्रिंग से एएससीआई को बाइनरी में सी # में कैसे परिवर्तित करते हैं?
- 11. क्या माइक्रोसॉफ़्ट वर्ड दस्तावेज़ को कोल्डफ्यूजन के साथ पीडीएफ में परिवर्तित करना संभव है?
- 12. सरल रिचटेक्स्ट को डेल्फी में HTML टैग में कैसे परिवर्तित करें?
- 13. आप एक्सकोड में टीडीडी कैसे करते हैं?
- 14. आप cstring से NSString को कैसे परिवर्तित करते हैं?
- 15. आप पाइथन में बहुत बड़ी फ़ाइलों को कैसे अनजिप करते हैं?
- 16. आप पायथन में कक्षा कैसे क्लोन करते हैं?
- 17. आप LPCWSTR से const char * को कैसे परिवर्तित करते हैं?
- 18. पायथन: स्लाइसिंग द्वारा आप सूची में कैसे सम्मिलित करते हैं?
- 19. आप पीडीबी (पायथन) में स्क्रिप्ट तर्क कैसे पारित करते हैं?
- 20. जावास्क्रिप्ट में सरल HTML sanitizer
- 21. वर्ड दस्तावेज़ को एक्सएसएल-एफओ
- 22. मैं लेटेक्स से माइक्रोसॉफ्ट वर्ड 2003 में किसी दस्तावेज़ को कैसे परिवर्तित करूं?
- 23. PHPExcel में HTML वर्णों को कैसे परिवर्तित करें?
- 24. अभिव्यक्ति मिश्रण में XAML को आप कैसे प्रारूपित करते हैं?
- 25. आप दस्तावेज़ को विंडो में कैसे बदलते हैं?
- 26. आप मोंगोस दस्तावेज़ को सादा वस्तु में कैसे बदलते हैं?
- 27. माइक्रोसॉफ्ट वर्ड दस्तावेज़
- 28. आप अपनी डेटाबेस संरचना कैसे दस्तावेज़ करते हैं?
- 29. आप बाइनरी डेटा को स्ट्रिंग्स और जावा में वापस कैसे परिवर्तित करते हैं?
- 30. ब्लूटूथ के बिना HTML अनुक्रमणिका फ़ाइल में आप एकाधिक जावास्क्रिप्ट फ़ाइलों को कैसे आयात करते हैं?
लेकिन आप इसे Google डॉक्स से कैसे करते हैं? मैं अपना एमएसडॉर्ड दस्तावेज़ अपलोड करता हूं और कन्वर्ट विकल्प चुनता हूं - यह सभी आरेखों को खो देता है – likejiujitsu