संपूर्ण विकिपीडिया को कैसे क्रॉल करें?

मैंने WebSphinx एप्लिकेशन को आजमाया है।संपूर्ण विकिपीडिया को कैसे क्रॉल करें?

मुझे एहसास है कि मैंने wikipedia.org को शुरुआती यूआरएल के रूप में रखा है, तो यह आगे नहीं बढ़ेगा।

इसलिए, वास्तव में पूरे विकिपीडिया को कैसे क्रॉल करना है? क्या कोई कुछ दिशानिर्देशों को समझ सकता है? क्या मुझे विशेष रूप से उन यूआरएल को जाना और ढूंढना होगा और कई शुरुआती यूआरएल डालना होगा?

किसी के पास usng WebSphinx के API पर ट्यूटोरियल के साथ अच्छी वेबसाइट के सुझाव हैं?

स्रोत

2010-02-22 Mr CooL

यदि आपका लक्ष्य विकिपीडिया को क्रॉल करना है, तो आप उपलब्ध डेटाबेस डंप को देखना चाहेंगे। http://download.wikimedia.org/ देखें।

स्रोत

2010-02-22 20:02:59 Andrew

+26

+1। HTTP के माध्यम से विकिपीडिया को क्रॉल करना कठोर है और सर्वर पर बहुत अधिक भार डालता है। –

@ ग्रेगहेविल, यह एक सुंदर धारणात्मक बयान है। यह वास्तव में इस बात पर निर्भर करता है कि आप साइट को कितनी तेजी से क्रॉल करते हैं, भले ही आप robots.txt निर्देशों का सम्मान करते हैं और आप "बहुत अधिक भार" का अर्थ क्या मानेंगे। विकिपीडिया के अनुसार "दोस्ताना, कम गति वाले बॉट्स लेख पृष्ठों को देखने का स्वागत करते हैं, लेकिन गतिशील रूप से जेनरेट किए गए पृष्ठ कृपया नहीं।" - http://en.wikipedia.org/robots.txt क्रॉलर आमतौर पर विकी मार्कअप से भरे विकिपीडिया-विशिष्ट एक्सएमएल दस्तावेज़ों को पार्स करने के लिए डिज़ाइन नहीं किए गए हैं, इसलिए विकिपीडिया.com के लिए दिनांकित एक्सएमएल डंप को पार्स करने के लिए एक अलग सिस्टम बनाना मूर्खतापूर्ण लगता है । –

मुझे यह नहीं मिला: अगर दोस्ताना क्रॉलिंग की अनुमति है, तो वे robots.txt में इतने सारे क्रॉलरों को क्यों अस्वीकार करते हैं? – TechNyquist

आपको शायद एक यादृच्छिक लेख से शुरुआत करने की आवश्यकता है, और उसके बाद उन सभी लेखों को क्रॉल करें जिन्हें आप प्रारंभ कर सकते हैं। जब वह खोज पेड़ समाप्त हो गया है, तो एक नया यादृच्छिक लेख शुरू करें। आप अपनी खोजों को उन शब्दों के साथ बीज दे सकते हैं जो आपको लगता है कि अधिकांश लेखों का नेतृत्व करेंगे, या सामने वाले पृष्ठ पर विशेष लेख के साथ शुरू करेंगे।

एक और सवाल: WebSphinx आगे क्यों क्रॉल नहीं हुआ? विकिपीडिया ब्लॉक बॉट्स जो 'वेबस्फीक्स' के रूप में पहचानते हैं?

स्रोत

2010-02-22 20:03:34 FrustratedWithFormsDesigner

मुझे यकीन है कि नहीं लेकिन शायद WEbSphinx के UserAgent विकिपीडिया की robots.txt

http://en.wikipedia.org/robots.txt

स्रोत

2010-02-22 20:05:47

विकिपीडिया डेटाबेस डंप ऊपर उल्लेख किया है, तो आप प्रश्नों को क्रियान्वित करने के लिए विकिपीडिया के एपीआई का उपयोग कर सकते हैं उपयोग करने के अलावा द्वारा अवरुद्ध है, इस तरह के कर रहा हूँ 100 यादृच्छिक लेखों को पुनः प्राप्त करने के रूप में।

http://www.mediawiki.org/wiki/API:Query_-Lists#random.2F_rn

स्रोत

2010-02-23 00:50:13 Gabe

मुझे लगता है कि आपको लगता है कि के लिए आवश्यक विन्यास का चयन नहीं कर सका। उन्नत पर स्विच करें, सबडोमेन क्रॉल करें, पेज आकार और समय को अनलिमिट करें।

हालांकि, WebSphinx शायद क्रॉल नहीं कर सकते पूरी विकिपीडिया, यह बड़ा डेटा के साथ धीमा और अंततः के पास स्मृति के 200MB प्रयोग किया जाता है बंद हो जाता है। मैं आपको Nutch, Heritrix और Crawler4j की सलाह देता हूं।

स्रोत

2012-04-21 13:04:59

-1

विकिपीडिया का एक संरचित संस्करण dbpedia पर एक नज़र डालें।

स्रोत

2014-08-19 00:01:10

संपूर्ण विकिपीडिया को कैसे क्रॉल करें?

उत्तर

संबंधित मुद्दे