मैंने WebSphinx एप्लिकेशन को आजमाया है।संपूर्ण विकिपीडिया को कैसे क्रॉल करें?
मुझे एहसास है कि मैंने wikipedia.org को शुरुआती यूआरएल के रूप में रखा है, तो यह आगे नहीं बढ़ेगा।
इसलिए, वास्तव में पूरे विकिपीडिया को कैसे क्रॉल करना है? क्या कोई कुछ दिशानिर्देशों को समझ सकता है? क्या मुझे विशेष रूप से उन यूआरएल को जाना और ढूंढना होगा और कई शुरुआती यूआरएल डालना होगा?
किसी के पास usng WebSphinx के API पर ट्यूटोरियल के साथ अच्छी वेबसाइट के सुझाव हैं?
+1। HTTP के माध्यम से विकिपीडिया को क्रॉल करना कठोर है और सर्वर पर बहुत अधिक भार डालता है। –
@ ग्रेगहेविल, यह एक सुंदर धारणात्मक बयान है। यह वास्तव में इस बात पर निर्भर करता है कि आप साइट को कितनी तेजी से क्रॉल करते हैं, भले ही आप robots.txt निर्देशों का सम्मान करते हैं और आप "बहुत अधिक भार" का अर्थ क्या मानेंगे। विकिपीडिया के अनुसार "दोस्ताना, कम गति वाले बॉट्स लेख पृष्ठों को देखने का स्वागत करते हैं, लेकिन गतिशील रूप से जेनरेट किए गए पृष्ठ कृपया नहीं।" - http://en.wikipedia.org/robots.txt क्रॉलर आमतौर पर विकी मार्कअप से भरे विकिपीडिया-विशिष्ट एक्सएमएल दस्तावेज़ों को पार्स करने के लिए डिज़ाइन नहीं किए गए हैं, इसलिए विकिपीडिया.com के लिए दिनांकित एक्सएमएल डंप को पार्स करने के लिए एक अलग सिस्टम बनाना मूर्खतापूर्ण लगता है । –
मुझे यह नहीं मिला: अगर दोस्ताना क्रॉलिंग की अनुमति है, तो वे robots.txt में इतने सारे क्रॉलरों को क्यों अस्वीकार करते हैं? – TechNyquist