मुझे किसी वेबसाइट से कुछ डेटा स्क्रैप करने की आवश्यकता है, क्योंकि यह उनकी वेब सेवा के माध्यम से उपलब्ध नहीं है। जब मुझे पहले ऐसा करने की आवश्यकता होती है, तो मैंने डेटा डाउनलोड करने के लिए प्रासंगिक HTTP कॉल करने के लिए अपाचे की HTTP क्लाइंट लाइब्रेरी का उपयोग करके जावा कोड लिखा है। मैंने प्रासंगिक HTTP कॉल लॉग करने के लिए Charles web proxy का उपयोग करते समय ब्राउज़र में प्रासंगिक स्क्रीन के माध्यम से क्लिक करके मुझे आवश्यक प्रासंगिक कॉलों का पता लगाया।स्वत: उत्पन्न HTTP स्क्रीन स्क्रैपिंग जावा कोड
जैसा कि आप कल्पना कर सकते हैं कि यह एक काफी कठिन प्रक्रिया है, और यदि कोई उपकरण है जो वास्तव में ब्राउज़र सत्र से संबंधित जावा कोड उत्पन्न कर सकता है तो मैं सोच रहा हूं। मुझे उम्मीद है कि जेनरेट कोड मैन्युअल रूप से लिखे गए कोड के रूप में उतना सुंदर नहीं होगा, लेकिन मैं इसे बाद में हमेशा साफ कर सकता हूं। क्या कोई जानता है कि ऐसा उपकरण मौजूद है या नहीं? सेलेनियम एक संभावना है जिसे मैं जानता हूं, हालांकि मुझे यकीन नहीं है कि यह इस सटीक उपयोग के मामले का समर्थन करता है या नहीं।
धन्यवाद, डॉन
सही पता है: http://www.manageability.org/blog/stuff/screen-scraping-tools-written-in-java/view?searchterm=scraping – vonjd