2010-04-18 12 views

उत्तर

12

selenium.py साथ SeleniumRC, एक वैकल्पिक (और कुछ व्यावहारिक विकल्पों में से एक आप जिन पन्नों को स्क्रैप की जरूरत है एक महत्वपूर्ण, "संरचनात्मक" जावास्क्रिप्ट के संचालन के लिए भूमिका है, खास तौर पर अगर है। AJAX-y लोगों के बाद से मशीनीकरण निष्पादित नहीं करता है पृष्ठों पर जावास्क्रिप्ट यह स्क्रैपिंग है)।

7

स्क्रैपिंग और फॉर्म हैंडलिंग के लिए आप lxml.html का उपयोग कर सकते हैं (हालांकि यह स्वचालित रूप से लाने और कुकीज़ को स्वचालित नहीं करता है)।

scrapy विशेष रूप से स्क्रैपिंग के लिए एक लाइब्रेरी है।

3

मैंने अपनी कई परीक्षण आवश्यकताओं के लिए twill का उपयोग किया है। यह "वेब ब्राउजिंग" या पाइथन से लाइब्रेरी के लिए स्टैंड-अलोन भाषा के रूप में काम करता है। यह वास्तव में हुड के तहत मैकेनाइजेशन का उपयोग करता है, इसलिए मुझे यकीन नहीं है कि यह आपकी आवश्यकताओं को पूरा करेगा या नहीं - क्या आप मशीनीकरण के लिए आंतरिक समस्याओं का सामना कर रहे हैं, या आप उच्च स्तर की परत से लाभान्वित होंगे?

3

मैं Splinter के साथ सफल किया गया है, एक समाधान सेलेनियम के ऊपर एक बने - जबकि अधिक pythonic एपीआई प्रदान करते हैं।

संबंधित मुद्दे