2010-02-22 15 views
5

मैंने WebSphinx एप्लिकेशन को आजमाया है।संपूर्ण विकिपीडिया को कैसे क्रॉल करें?

मुझे एहसास है कि मैंने wikipedia.org को शुरुआती यूआरएल के रूप में रखा है, तो यह आगे नहीं बढ़ेगा।

इसलिए, वास्तव में पूरे विकिपीडिया को कैसे क्रॉल करना है? क्या कोई कुछ दिशानिर्देशों को समझ सकता है? क्या मुझे विशेष रूप से उन यूआरएल को जाना और ढूंढना होगा और कई शुरुआती यूआरएल डालना होगा?

किसी के पास usng WebSphinx के API पर ट्यूटोरियल के साथ अच्छी वेबसाइट के सुझाव हैं?

उत्तर

43

यदि आपका लक्ष्य विकिपीडिया को क्रॉल करना है, तो आप उपलब्ध डेटाबेस डंप को देखना चाहेंगे। http://download.wikimedia.org/ देखें।

+26

+1। HTTP के माध्यम से विकिपीडिया को क्रॉल करना कठोर है और सर्वर पर बहुत अधिक भार डालता है। –

+7

@ ग्रेगहेविल, यह एक सुंदर धारणात्मक बयान है। यह वास्तव में इस बात पर निर्भर करता है कि आप साइट को कितनी तेजी से क्रॉल करते हैं, भले ही आप robots.txt निर्देशों का सम्मान करते हैं और आप "बहुत अधिक भार" का अर्थ क्या मानेंगे। विकिपीडिया के अनुसार "दोस्ताना, कम गति वाले बॉट्स लेख पृष्ठों को देखने का स्वागत करते हैं, लेकिन गतिशील रूप से जेनरेट किए गए पृष्ठ कृपया नहीं।" - http://en.wikipedia.org/robots.txt क्रॉलर आमतौर पर विकी मार्कअप से भरे विकिपीडिया-विशिष्ट एक्सएमएल दस्तावेज़ों को पार्स करने के लिए डिज़ाइन नहीं किए गए हैं, इसलिए विकिपीडिया.com के लिए दिनांकित एक्सएमएल डंप को पार्स करने के लिए एक अलग सिस्टम बनाना मूर्खतापूर्ण लगता है । –

+0

मुझे यह नहीं मिला: अगर दोस्ताना क्रॉलिंग की अनुमति है, तो वे robots.txt में इतने सारे क्रॉलरों को क्यों अस्वीकार करते हैं? – TechNyquist

0

आपको शायद एक यादृच्छिक लेख से शुरुआत करने की आवश्यकता है, और उसके बाद उन सभी लेखों को क्रॉल करें जिन्हें आप प्रारंभ कर सकते हैं। जब वह खोज पेड़ समाप्त हो गया है, तो एक नया यादृच्छिक लेख शुरू करें। आप अपनी खोजों को उन शब्दों के साथ बीज दे सकते हैं जो आपको लगता है कि अधिकांश लेखों का नेतृत्व करेंगे, या सामने वाले पृष्ठ पर विशेष लेख के साथ शुरू करेंगे।

एक और सवाल: WebSphinx आगे क्यों क्रॉल नहीं हुआ? विकिपीडिया ब्लॉक बॉट्स जो 'वेबस्फीक्स' के रूप में पहचानते हैं?

0

विकिपीडिया डेटाबेस डंप ऊपर उल्लेख किया है, तो आप प्रश्नों को क्रियान्वित करने के लिए विकिपीडिया के एपीआई का उपयोग कर सकते हैं उपयोग करने के अलावा द्वारा अवरुद्ध है, इस तरह के कर रहा हूँ 100 यादृच्छिक लेखों को पुनः प्राप्त करने के रूप में।

http://www.mediawiki.org/wiki/API:Query_-Lists#random.2F_rn

2

मुझे लगता है कि आपको लगता है कि के लिए आवश्यक विन्यास का चयन नहीं कर सका। उन्नत पर स्विच करें, सबडोमेन क्रॉल करें, पेज आकार और समय को अनलिमिट करें।

हालांकि, WebSphinx शायद क्रॉल नहीं कर सकते पूरी विकिपीडिया, यह बड़ा डेटा के साथ धीमा और अंततः के पास स्मृति के 200MB प्रयोग किया जाता है बंद हो जाता है। मैं आपको Nutch, Heritrix और Crawler4j की सलाह देता हूं।

-1

विकिपीडिया का एक संरचित संस्करण dbpedia पर एक नज़र डालें।

संबंधित मुद्दे