2011-12-12 7 views
12

जावा में लिखे गए सबसे अच्छे ओपन सोर्स वेब क्रॉलर टूल क्या है।जावा में लिखे गए सबसे अच्छे ओपन सोर्स वेब क्रॉलर टूल क्या हैं?

+2

क्रॉलर 4j आज़माएं। इसका खुला स्रोत और उपयोग करने में आसान है। आप crawler4j - http://www.buggybread.com/2013/01/create-your-own-email-and-image.html –

उत्तर

9

crawler4j आज़माएं। आपको केवल एक साधारण इंटरफ़ेस को लागू करने की आवश्यकता है जो नियंत्रित करता है कि कौन से यूआरएल जाते हैं और प्रत्येक क्रॉल किए गए पेज के साथ क्या करना है।

+0

सेट करने के लिए इस मार्गदर्शिका का संदर्भ ले सकते हैं मुझे इस क्रॉलर ("साइट का उपयोग करके HTTPS वेबसाइटों को क्रॉल करने में समस्याएं हैं जवाब देने में असफल रहा "जबकि यह ब्राउज़र में ठीक खुलता है आदि) – ed22

5

जावा में मुझे लगता है कि यह Nutch बनाम Heritrix पर उबलता है। आपको एक बेहतर उत्तर प्राप्त करने के लिए अपनी आवश्यकताओं को निर्दिष्ट करना चाहिए।

संबंधित मुद्दे