मुझे बस यह विचार था, और यह सोच रहा था कि पूरे वेब को क्रॉल करना संभव है (जैसे बड़े लड़के!) एक समर्पित सर्वर (जैसे Core2Duo, 8gig RAM, 750gb डिस्क 100mbps) पर।गाइड?
मैं एक पेपर में आया हूं जहां यह किया गया था .... लेकिन मुझे इस पेपर के शीर्षक को याद नहीं किया जा सकता है। यह कुछ सांख्यिकीय मॉडल का उपयोग कर एक समर्पित सर्वर पर पूरे वेब को क्रॉल करने जैसा था।
फिर भी, बस करीब 10,000 बीज यूआरएल के साथ शुरू, और संपूर्ण क्रॉल करने की कल्पना ....
यह संभव है?
मुझे वेब को क्रॉल करने की आवश्यकता है लेकिन समर्पित सर्वर तक सीमित है। मैं यह कैसे कर सकता हूं, क्या वहां पहले से ही एक ओपन सोर्स समाधान है?
उदाहरण के लिए इस वास्तविक समय खोज इंजन को देखें। http://crawlrapidshare.com परिणाम बेहद अच्छे और ताज़ा अपडेट किए गए हैं .... वे यह कैसे कर रहे हैं?
मैं आपकी यात्रा में शुभकामनाएं चाहता हूं। –
उत्सुकता यह कितनी देर तक एक मशीन से वेब का 50% क्रॉल करने के लिए ले जाएगा (यहां तक कि एक एफएटी पाइप, असली सौदा कोर बहुत सी रैम और एचडीडी स्पेस)। कितना लंबा? कोई अनुमान? –
Google प्रति दिन 4 बिलियन पृष्ठों को क्रॉल करता है और फिर भी वे पूरे वेब को क्रॉल करने में सक्षम नहीं हैं। –