2011-08-10 37 views
6

मैं पाइथन के लिए नया हूं इसलिए मुझे खेद है कि यह एक नौसिखिया प्रश्न है।पायथन 3 वेब स्क्रैपिंग विकल्प

मैं वेबक्रैपिंग से जुड़े एक प्रोग्राम को बनाने की कोशिश कर रहा हूं और मैंने देखा है कि पायथन 3 में पायथन 2.x श्रृंखला की तुलना में काफी कम वेब-स्क्रैपिंग मॉड्यूल हैं।

सुंदर सूप, मशीनीकरण, और स्केपर - मेरे लिए अनुशंसित तीन मॉड्यूल - सभी असंगत प्रतीत होते हैं।

मैं सोच रहा हूँ अगर यह मंच पर किसी को भी अजगर 3.

कोई सुझाव बहुत सराहना की जाएगी का उपयोग कर webscraping लिए एक अच्छा विकल्प है।

धन्यवाद, विल

उत्तर

3

lxml.html अजगर 3 पर काम करता है, और आप को पार्स एचटीएमएल, कम से कम हो जाता है।

सुंदरसूप 4, जो काम में है, को पायथन 3 का समर्थन करना चाहिए (मैंने इस पर कुछ काम किया है)।

+0

एलएक्सएमएल पार्सिंग अमान्य एचटीएमएल लगभग साथ ही सुंदर सूप हैंडल करता है। यह भी तेज है, लेकिन स्थापित करने के लिए कठिन है। –

+1

उबंटू उपयोगकर्ता बस 'python3-lxml' पैकेज को स्थापित कर सकते हैं। सुंदर सूप 4 एलएक्सएमएल (या अन्य पार्सर्स) का उपयोग करेगा, और डीओएम तक पहुंचने के तरीकों पर ध्यान केंद्रित करेगा। तो यह एलएक्सएमएल की गति से लाभान्वित होगा। –

संबंधित मुद्दे