2011-10-04 17 views
5

मेरे पास एक वेबसाइट अपडेटर है (लोग सामग्री (टेक्स्ट) को वेबसाइट के रूप में अपडेट नहीं कर सकते हैं) जिसमें एचटीएमएल, जावास्क्रिप्ट फ्रंट एंड लैंग्वेज & पाइथन बैक एंड/सर्वर पक्ष के रूप में है।एचटीएमएल पार्सिंग के लिए सर्वश्रेष्ठ पायथन मॉड्यूल

मैं लग रहा है कि HTML को अद्यतन करने के सामने के छोर से बहुत मुश्किल है क्योंकि जब मैं ele.innerHTML या $ (हाथी) .html() ब्राउज़र के आधार पर बदल एचटीएमएल देता है (के द्वारा अद्यतन एचटीएमएल हड़पने लानत अर्थात)।

तो मैं अजगर

आपको क्या लगता एचटीएमएल & हड़पने जानकारी पार्स करने के लिए सबसे अच्छा अजगर मॉड्यूल है में, बैकएंड, यानी से मेरी एचटीएमएल अद्यतन करने के लिए फैसला किया है?

मेरे आवश्यकताएँ हैं:
- मैं HTML & सभी HTML तत्वों उस वर्ग के हैं खोजने पार्स करने दिया जाएगा "updatable"
- कि मॉड्यूल अजगर 2.5 या उससे कम (मेरे webhost की वजह से) में
कम से कम हो - "अद्यतन करने योग्य" वर्ग के प्रत्येक तत्व के लिए: आंतरिक टेक्स्ट निकालें (HTML केवल टेक्स्ट/सामग्री नहीं)

आप किस पायथन मॉड्यूल का सुझाव देंगे इसके लिए सबसे अच्छा है?
- HTMLParser.py
- htmllib.py
- किसी अन्य पायथन 2.5 संगत मॉड्यूल के बारे में पता है?

उत्तर

5

मैं lxml (http://lxml.de/lxmlhtml.html) का उपयोग कर रहा हूं। यह सामान्य आकार के एचटीएमएल दस्तावेज़ों के लिए अपेक्षाकृत तेज़ है और इसमें सुंदर सूप का उपयोग करने के लिए समर्थन है। जैसा कि मैं इसे समझता हूं, सुंदरसूप अब समर्थित नहीं है इसलिए सभी नई परियोजनाओं के लिए मैंने lxml का उपयोग किया है।

+4

सुंदर सूप अब 3 जुलाई 2012 से रिलीज के साथ फिर से सक्रिय प्रतीत होता है। Http://www.crummy.com/software/BeautifulSoup/ – jforberg

+0

दरअसल, यह अच्छी खबर है! – David

8

एचटीएमएल पार्सिंग के लिए मैं सुझाव दूंगा कि आप सुंदर सूप पर एक नज़र डालें। यह बहुत शक्तिशाली है और कुछ गड़बड़ मार्कअप के साथ भी निपट सकता है।

http://www.crummy.com/software/BeautifulSoup/

इस बाहर की जाँच करें और देखें कि क्या तुम बाहर में मदद करता है! उम्मीद है कि यह करता है।

+0

एक सिर के रूप में, सुंदर सूप अब इसके लेखक द्वारा सक्रिय रूप से समर्थन नहीं करता है और कोर निर्भरता SQMLParser को Python3 के लिए बहिष्कृत किया गया था। http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – David

+0

मेरा बुरा, उस से अवगत नहीं था, मैं उस मामले में lxml विकल्प को ऊपर रखूंगा। – pcalcao

+0

यह वास्तव में दुर्भाग्यपूर्ण है क्योंकि सुंदर सूप अभी भी एक अच्छा टूल है। – David

संबंधित मुद्दे