2009-10-20 11 views
12

हर अब और फिर मुझे एक वर्ड डॉक्यूमेंट प्राप्त होता है जिसे मुझे एक वेब पेज के रूप में प्रदर्शित करना होता है। मैं वर्तमान में एमएस वर्ड द्वारा उत्पन्न एचटीएमएल सामग्री को पकड़कर इसे प्राप्त करने के लिए डीजेगो के फ्लैटपेज का उपयोग कर रहा हूं। जेनरेट एचटीएमएल काफी गन्दा है। क्या कोई बेहतर तरीका है जो पाइथन का उपयोग करके इस समस्या को हल करने के लिए बहुत ही सरल HTML उत्पन्न कर सकता है?आप वर्ड दस्तावेज़ को पायथन में बहुत सरल HTML में कैसे परिवर्तित करते हैं?

उत्तर

6

एक अच्छे समाधान में Google डॉक्स में अपलोड करना और उससे HTML संस्करण निर्यात करना शामिल है। (इसके लिए एक एपीआई होना चाहिए?)

यह बहुत से "साफ अप" करता है; सड़क के नीचे Beautiful Soup का उपयोग किसी भी और बदलाव के लिए किया जा सकता है, जैसा उचित हो। यह ग्रह पर सबसे शक्तिशाली और सुरुचिपूर्ण एचटीएमएल पार्सिंग लाइब्रेरी है।

यह पत्रकार कंपनियों के लिए एक ज्ञात मानक है।

+1

लेकिन आप इसे Google डॉक्स से कैसे करते हैं? मैं अपना एमएसडॉर्ड दस्तावेज़ अपलोड करता हूं और कन्वर्ट विकल्प चुनता हूं - यह सभी आरेखों को खो देता है – likejiujitsu

2

यह निर्भर करता है कि आप कितने प्रारूपण और छवियों से निपट रहे हैं।

  • गूगल डॉक्स:: मैं एक जोड़ी चीजों में से कोई एक कार्य करें शायद निकटतम आप मूल स्वरूपण और प्रयोग करने योग्य HTML के लिए मिल जाएगा।
  • मार्कडाउन: एबंडन स्वरूपण। इसे एक सादा पाठ संपादक में पेस्ट करें, इसे मार्कडाउन के माध्यम से चलाएं और बाकी को हाथ से ठीक करें।
+1

मैं Google डॉक से HTML कैसे प्राप्त करूं? क्या यह HTML विकल्प के रूप में डाउनलोड है? –

+1

+1: वर्ड डॉक फाइलें * काम करने के लिए * बहुत कठिन हैं। ओपन ऑफिस सहित कई टूल उन्हें परिवर्तित करेंगे। Google डॉक्स में एक साधारण एपीआई है क्योंकि यह एक HTTP वेब सेवा है। –

+3

एमएस वर्ड -> एचटीएमएल सिर्फ सादा बुराई है। मेरे पास एक क्लाइंट था जो मुझे 9 5 (!) पृष्ठ शब्द दस्तावेज़ था जिसमें सैकड़ों 'देखने के लिए स्थान' थे और कहते हैं, "इसे डेटाबेस में दर्ज करना आसान होना चाहिए।" Arrggghh! मैंने इसे किया और विशेषाधिकार के लिए उसे $ 100/घंटा बिल दिया, लेकिन मुझे लगता है कि मैंने दर्द की मात्रा को कम किया है। एचटीएमएल सबसे खराब था जो मुझे कभी भी काम करना पड़ा था। –

2

तुम भी Abiword/wvWare एक्सएचटीएमएल करने के लिए शब्द दस्तावेज़ कनवर्ट और फिर BeautifulSoup/ElementTree/आदि के साथ यह पार्स करने के लिए उपयोग कर सकते हैं। यदि आपको आवश्यकता हो तो इसे प्रीप्रोसेस करने के लिए। मेरे अनुभव में, एबियवर्ड वर्ड फाइलों को बदलने और अपेक्षाकृत साफ एक्सएचटीएमएल फाइलों का उत्पादन करने में एक बहुत अच्छा काम करता है।

मुझे यह उल्लेख करना चाहिए कि एब्यवर्ड कमांड लाइन पर चलाया जा सकता है, इसलिए इसे स्वचालित प्रक्रिया में एकीकृत करना आसान है।

3

मेरा सुपर-सरल ऐप WordOff में Word-exported HTML से क्रूफ़्ट की सफाई के लिए API है। एपीआई के माध्यम से पहली बार सहेजे जाने पर पहली बार आप अपने फ्लैट पेज मॉडल की सहेजने वाली विधि को ओवरराइड कर सकते हैं। कुछ ऐसा:

import urllib 
import urllib2 

def decruft(html): 
    data = urllib.urlencode({'html' : html}) 
    req = urllib2.Request('http://wordoff.org/api/clean', data) 
    response = urllib2.urlopen(req) 
    return response.read() 

def save(self, **kwargs): 
    if not self.pk: # only de-cruft when content is first added 
     self.content = decruft(self.content) 
    super(FlatPage, self).save(**kwargs) 
+0

वर्डऑफ इस तरह की चीज पर बहुत साफ है –

+2

यदि आप स्थानीय रूप से वर्डऑफ का उपयोग करना चाहते हैं तो आप मॉड्यूल डाउनलोड कर सकते हैं और उसी परिणाम प्राप्त करने के लिए अपनी "सुपरक्लीन" विधि का उपयोग कर सकते हैं: https://raw.github.com/tomdyson/wordoff/ मास्टर/wordoff.py –

+4

अरे टॉम, WordOff.org पहले से ही समाप्त हो गया है हालांकि – fedmich

2

वर्ड 2010 में "फ़िल्टर किए गए वेब पेज के रूप में सहेजने" की क्षमता है। यह एचटीएमएल के भारी बहुमत को खत्म कर देगा जो वर्ड सम्मिलित करता है। http://www.textfixer.com/html/convert-word-to-html.php

यह सरल HTML मार्कअप करने के लिए एक से स्वरूपित पाठ धर्मान्तरित बोल्ड, इटैलिक, लिंक और पैराग्राफ संरक्षण, लेकिन फ़ॉन्ट आकार और चेहरे के लिए टैग जोड़ने नहीं:

4

मैं इस वेब पेज पाया। वास्तव में मुझे कुछ समय बचाने के लिए क्या चाहिए।

+0

यह आश्चर्यजनक है! ठीक वैसे ही काम करता है जैसा मैं चाहता हूं। – Justin

संबंधित मुद्दे