मुझे अक्सर आंतरिक उद्देश्यों के लिए कुछ सरल स्क्रीन स्क्रैप करने की आवश्यकता होती है (यानी एक तृतीय पक्ष सेवा जिसका उपयोग मैं केवल HTML के माध्यम से रिपोर्ट प्रकाशित करता हूं)। मेरे पास अब कम से कम दो या तीन मामले हैं। मैं apache httpclient का उपयोग कर सकता हूं और सभी आवश्यक स्क्रीन स्क्रैपिंग कोड बना सकता हूं लेकिन इसमें कुछ समय लगता है। यहां मेरी सामान्य प्रक्रिया है:सुपर-फास्ट स्क्रीन स्क्रैपिंग तकनीकें?
- वेब साइट पर चार्ल्स प्रॉक्सी खोलें और देखें कि क्या हो रहा है।
- अपाचे एचटीपी क्लाइंट का उपयोग करके कुछ जावा कोड लिखना शुरू करें, कुकीज़ से निपटने, एकाधिक अनुरोध
- HTML के पार्सिंग से निपटने के लिए जेरिको एचटीएमएल का उपयोग करें।
मेरी इच्छा है कि मैं बस "अपना सत्र रिकॉर्ड" कर सकता हूं और फिर सत्र से सत्र में भिन्न चीजों को पैरामीट्रिज कर सकता हूं। कल्पना करें कि सभी अनुरोध HTTP को पकड़ने के लिए चार्ल्स का उपयोग करें और फिर संबंधित क्वेरी स्ट्रिंग या पोस्ट पैराम को पैरामीट्रिज़ करें। वोला मेरे पास एक पुन: प्रयोज्य http स्क्रिप्ट है।
क्या ऐसा कुछ भी है जो पहले से ही करता है? मुझे याद है जब मैं एक बड़ी कंपनी में काम करता था, वहां एक उपकरण होता था जिसे हमने बुध इंटरएक्टिव द्वारा लोड रनर कहा जाता था, जो अनिवार्य रूप से एक http सत्र रिकॉर्ड करने और इसे पुन: प्रयोज्य (परीक्षण उद्देश्यों के लिए) बनाने का एक अच्छा तरीका था। दुर्भाग्यवश, वह उपकरण बहुत महंगा है।
अपने सभी सवालों के जवाब के लिए धन्यवाद। मुझे लगता है कि वे सभी काफी मूल्यवान थे और दूसरों को एक ही दुविधा का सामना करने में मदद करेंगे। मैंने टवील का प्रयास करने का फैसला किया क्योंकि यह एक बहुत ही आसान भाषा की तरह लगता है और क्योंकि पाइथन में यह क्रॉस-प्लेटफार्म है। सुझाए गए कई टूल अच्छे लगते थे - हालांकि कुछ विंडोज-विशिष्ट लगते थे और अन्य लगते थे कि उनके पास एक तेज सीखने की वक्र थी। – Ish