2010-07-02 15 views
8

हाय सब मैं एक साधारण वेब क्रॉलिंग स्क्रिप्ट लिख रहा हूं जिसे किसी वेबपृष्ठ से कनेक्ट करने की आवश्यकता है, स्वचालित रूप से 302 रीडायरेक्ट का पालन करें, मुझे लिंक से अंतिम यूआरएल दें और मुझे HTML को पकड़ने दें।http कनेक्शन के लिए सर्वश्रेष्ठ जावा lib?

इस तरह की चीजों को करने के लिए पसंदीदा जावा lib क्या है?

धन्यवाद

+0

देखें - http://stackoverflow.com/questions/1322335/क्या-द-द-बेस्ट-जावा-लाइब्रेरी-टू-यूज-फॉर-एचटीएमएल-पोस्ट-गेट-इत्यादि – adatapost

उत्तर

9

आप इस के लिए Apache HttpComponents Client (या "सादे वेनिला" जावा SE निर्मित और वर्बोज़ URLConnection एपीआई) का उपयोग कर सकते हैं। एचटीएमएल पार्सिंग/ट्रैवर्सिंग/मैनिपुलेशन भाग Jsoupuseful हो सकता है।

ध्यान दें कि थोड़ा सभ्य क्रॉलर robots.txt का पालन करना चाहिए। आप मौजूदा जावा आधारित वेबक्रॉलर को देख सकते हैं, जैसे J-Spider Apache Nutch

2

जैसा कि बलुस ने कहा, अपाचे के एचटीपी कॉम्पोनेंट्स क्लाइंट पर एक नज़र डालें। नच प्रोजेक्ट ने बहुत सी कठोर क्रॉलिंग/फ़ेचिंग/इंडेक्सिंग समस्याओं को हल किया है, इसलिए यदि आप देखना चाहते हैं कि वे निम्नलिखित 302 को कैसे हल करते हैं, तो http://svn.apache.org/viewvc/nutch/trunk/src/

+0

यह वास्तव में जे-स्पाइडर से बेहतर सुझाव है। – BalusC

संबंधित मुद्दे