2011-08-30 13 views
7

के साथ जावा robots.txt पार्सर मैं जावा में robots.txt पार्सर की तलाश में हूं, जो Googlebot के समान pattern matching rules का समर्थन करता है।वाइल्डकार्ड समर्थन

मैं रोबोट पाठ फाइलों पार्स करने के लिए कुछ librairies पाया है, लेकिन उनमें से कोई Googlebot-शैली पैटर्न मिलान का समर्थन करता है:

  • Heritrix (वहाँ इस विषय पर एक open issue)
  • Crawler4j (दिखता है Heritrix रूप में एक ही कार्यान्वयन)
  • jrobotx तरह

किसी को भी है कि यह कर सकते हैं एक जावा पुस्तकालय का पता है?

+0

मेरा मानना ​​है कि पूर्व क्रॉलर काम करेंगे लायक । http://sourceforge.net/projects/ex-crawler/ – Fred

उत्तर

1

नच crawler-commons के संयोजन का उपयोग some custom code (रोबोट्स नियम Parser.java देखें) के साथ कर रहा है। मैं अफवाहों की वर्तमान स्थिति के बारे में निश्चित नहीं हूं, हालांकि। उपयोगकर्ता-एजेंट का नाम (रों) http.robots.agents में विन्यस्त शामिल रिक्त स्थान यह मेल नहीं खाता है, भले ही है

:

विशेष रूप से, इस मुद्दे को NUTCH-1455 काफी अपनी आवश्यकताओं से संबंधित होना लग रहा है वास्तव में robots.txt में निहित http.robots.agents = "डाउनलोड निंजा, *"

शायद इसकी यह कोशिश करने के लिए/पैच/ठीक प्रस्तुत :)

संबंधित मुद्दे