2010-06-29 10 views

उत्तर

5

Heritrix जावा में लिखा गया एक ओपन-सोर्स वेब क्रॉलर है। अपने जावाडोक के माध्यम से देखकर, मुझे लगता है कि robots.txt फ़ाइल को पार्स करने के लिए उनके पास उपयोगिता वर्ग Robotstxt है।

+0

Robotstxt में एक बग शामिल है। कृपया इसका इस्तेमाल न करें। बहुत समय बर्बाद कर दिया। इस तरह की एक फ़ाइल के लिए: उपयोगकर्ता-एजेंट: * अस्वीकार करें:/ अनुमति दें रोबोटस्टक्स्ट की सभी विधि "सत्य" कहती है। – 10101010

1

सोर्सफोर्ज में भी jrobotx library होस्ट किया गया है।

(पूर्ण प्रकटीकरण: मैं बंद कोड है कि पुस्तकालय का निर्माण करती है काता।)

0

भी क्रॉलर कॉमन्स की नई रिलीज़ नहीं है:

https://github.com/crawler-commons/crawler-commons

पुस्तकालय कार्यक्षमता आम लागू करने के लिए करना है किसी भी वेब क्रॉलर में और इसमें एक बहुत ही आसान robots.txt पार्सर

संबंधित मुद्दे