2009-11-03 4 views
9

का उपयोग कर HTML को सादे टेक्स्ट में कनवर्ट करने का सबसे अच्छा तरीका मैं एक ऐसे प्रोजेक्ट पर काम कर रहा हूं जिसमें बड़ी मात्रा में HTML सामग्री को सादे/टेक्स्ट में परिवर्तित करना शामिल है। मेरे पास एक कस्टम लिखित मॉड्यूल है जो नौकरी ठीक करता है, लेकिन मुझे आश्चर्य है कि नौकरी पाने में मदद के लिए कुछ मानक उपकरण हैं या नहीं।पाइथन

BeautifulSoup एक और विकल्प है:

उत्तर

10

Html2Text एक अच्छा विकल्प

+0

यह बहुत अच्छी तरह से काम करता है –

+0

साइट अब हारून के बाद से पहुंच योग्य नहीं है, लेखक अब नहीं है। –

+1

लेकिन कोड https://github.com/aaronsw/html2text –

4

यहाँ एक अजगर पुस्तकालय जो एचटीएमएल पार्स करता है लगता है।

+2

पर पाया जा सकता है अन्य लोगों को Google से वापस कुछ समय तक सहेजने के लिए, यहां एक प्रश्नोत्तर वर्णन है कि सुंदर सूप वास्तव में अब और नहीं बनाए रखा गया है: [सुंदर सूप के साथ वेबस्क्रैपिंग या LXML.HTML] (http://stackoverflow.com/questions/5493514/webscraping-with-beautifulsoup-or-lxml-html)। – sage

+1

अब मुझे लगता है कि सुंदर सूप बनाए रखा प्रतीत होता है। – contrebis