आपको क्रॉलर की आवश्यकता है। यह एक अपने आप का निर्माण करने के लिए बहुत तुच्छ है (छोटे क्रॉल के लिए!)
- पहले पन्ने (नीचे देखें **)
- पेज पार्स, लिंक निकालें मारा। इसके लिए आपको एक HTML पार्सर चाहिए जो बुरी तरह से स्वरूपित HTML को संभाल सकता है। Jericho, TagSoup, CyberNecko या HtmlTidy आज़माएं। एक सामान्य एक्सएमएल पार्सर शायद अधिकांश HTML पृष्ठों के लिए सरसों को काट नहीं देगा, क्योंकि वे अक्सर एक्सएमएल का गठन नहीं करते हैं।
- जो लिंक आप खोज रहे हैं उसे जांचें। यदि आप इसे स्थानीय साइट लिंक नहीं जोड़ पाते हैं जिसे आपने पहले नहीं देखा है और चरण 1 पर वापस जाएं, दोहराएं।
एक छोटी सी साइट (कुछ हज़ार पृष्ठों) के लिए आप शायद यह सब स्मृति में कर सकते हैं।
** अनुरोध करने के लिए सामान्य जावा URLConnection या कॉमन्स HTTPClient (v4) का उपयोग करें।
नोट: अपना लिंक ढूंढना - लिंक किसी साइट पर पूर्ण, स्थानीय या कुछ आधार href के लिए हल हो सकते हैं। आपकी तलाश करते समय आपको इसके लिए खाते की आवश्यकता होगी। सबसे आसान सभी लिंक का अनुवाद करना सबसे आसान है, मौजूदा पेज बेस href को हल करने के लिए देखभाल करना, यदि उसके पास है।
सरल।
वेबसाइट स्थान अपडेट किया गया। bestoftheweb.org अमान्य है। पृष्ठ botw.org पर है। –