मैंने एक पायथन लिपि लिखी है जो डाउनलोड की गई बड़ी संख्या में वेबपृष्ठों (एचटीएमएल (120 के पेज) को संसाधित करती है। मुझे उन्हें पार्स करने और वहां से कुछ जानकारी निकालने की ज़रूरत है। मैंने सुंदर सूप का उपयोग करने की कोशिश की, जो कि आसान और सहज है, लेकिन ऐसा लगता है कि धीरे-धीरे सुपर चल रहा है। चूंकि यह ऐसा कुछ है जो नियमित रूप से एक कमजोर मशीन (अमेज़ॅन पर) पर चलना होगा, गति महत्वपूर्ण है। क्या अजगर में एक HTML/XML पार्सर है जो सुंदर सूप से बहुत तेज काम करेगा? या मुझे regex पार्सिंग का सहारा लेना चाहिए ..एक तेज़ पायथन एचटीएमएल पार्सर
उत्तर
lxml एक तेजी से XML और HTML पार्सर है। आपके कोड को तत्वों की एक धारा दी गई है और आपको अपने रिश्तों को अनुमानित करना (और संभावित रूप से स्टोर करना) करना है; लेकिन आपको केवल उतना ही राज्य बनाए रखने की आवश्यकता है जितनी आवश्यक डेटा प्राप्त करने के लिए आवश्यक है। इसके विपरीत, डोम-स्टाइल पार्सर्स को एक नेविगबल ऑब्जेक्ट मॉडल बनाने की आवश्यकता होती है, जिसमें समय (और मेमोरी) होती है जिसे शायद आपको खर्च करने की आवश्यकता नहीं होती है।
पायथन के पास HTML के लिए ऐसा पार्सर है; इसे HTMLParser
(html.parser
पायथन 3) कहा जाता है। उस डेटा को पहचानना कितना मुश्किल है, जिसे आप निकालना चाहते हैं, हालांकि, इस तरह के पार्सिंग को सफलतापूर्वक झुकाव करना बहुत कठिन हो सकता है। यदि आप एक उदाहरण फ़ाइल और जानकारी पोस्ट करना चाहते हैं, तो आप किस डेटा को निकालना चाहते हैं, मैं शायद एक झटका लगा सकता हूं।
कोशिश करें: ElementTree तेज़ हो सकता है, लेकिन मुझे यकीन नहीं है। http://lxml.de/parsing.html
मैं यह भी सुझाव देने जा रहा था ... हालांकि, मेरे पास सुंदर सूप – inspectorG4dget
SAX शैली पारसर्स डोम आधारित लोगों की तुलना में तेजी हो सकता है:
xml.etree.ElementTree import ElementTree
- 1. पायथन एचटीएमएल पार्सर: यूनिकोडडेकोड एरर
- 2. एचटीएमएल पार्सर
- 3. एक तेज़ पायथन स्पाइडर
- 4. एचटीएमएल पार्सर कोडिनेटर लाइब्रेरी?
- 5. पीएचपी एचटीएमएल डोम पार्सर
- 6. माइक्रोसॉफ्ट पावरपॉइंट पायथन पार्सर
- 7. पायथन 3.1 आरएसएस पार्सर?
- 8. पायथन सीएसएस पार्सर
- 9. एचटीएमएल पार्सर टैग मान्य करें
- 10. पायथन पार्सर जेनरेटर पर सलाह
- 11. पायथन, कॉन्फ़िगर पार्सर: 'जादुई इंटरपोलेशन'
- 12. एक पार्सर (उदाहरण के लिए, एचटीएमएल) कैसे काम करता है?
- 13. फ्री जावा एचटीएमएल और जेएस पार्सर
- 14. डेल्फी के लिए सबसे तेज़ एक्सएमएल पार्सर उपलब्ध क्या है?
- 15. पायथन में एम्बेडेड लिनक्स डिवाइस पेड़ पार्सर?
- 16. पायथन की कॉन्फ़िगर पार्सर प्रति अनुभाग
- 17. मुझे उचित रूबी/पायथन पार्सर जनरेटर
- 18. पायथन में Doxygen सी ++ टिप्पणी स्ट्रिंग पार्सर?
- 19. एचटीएमएल फॉर्म एक पायथन लिपि में पोस्ट?
- 20. सी ++ एक पार्सर
- 21. एक पार्सर जनरेटर
- 22. एक अच्छा ओकंपल पार्सर?
- 23. एक अच्छा पता पार्सर
- 24. एक साधारण पार्सर
- 25. SAX पार्सर
- 26. पायथन एचटीएमएल हटाने
- 27. पायथन एचटीएमएल जनरेटर
- 28. फ्लास्क, पायथन, एचटीएमएल, flask.request.form
- 29. पायथन लॉगिंग कैसे एचटीएमएल
- 30. पायथन और एचटीएमएल '% ऑपरेटर'
[टट्टू को दूर रखें ...] (http://stackoverflow.com/a/1732454/554546) –
मुझे पाइथन में HTML को पार्स करने का कोई अनुभव नहीं है, लेकिन [यहां] (http: //blog.ianbicking .org/2008/03/30/पायथन-एचटीएमएल-पार्सर-प्रदर्शन /) कुछ बेंचमार्क परिणाम हैं जिन्हें आप उपयोगी पा सकते हैं। –
[रेगेक्स और एचटीएमएल == विफलता] (http://stackoverflow.com/a/1732454/554546) –