2014-06-29 14 views
15

मैं सभी विकिपीडिया लेखों के सभी शीर्षकों की एक सूची प्राप्त करना चाहता हूं। मुझे पता है कि विकीमीडिया संचालित विकी से सामग्री प्राप्त करने के दो संभावित तरीके हैं। एक एपीआई होगा और दूसरा डेटाबेस डंप होगा।सभी विकिपीडिया लेखों के शीर्षकों की सूची कैसे प्राप्त करें

मैं विकी डंप डाउनलोड नहीं करना चाहता हूं। पहला क्योंकि यह बहुत बड़ा है, दूसरा क्योंकि मैं वास्तव में क्वेरीिंग डेटाबेस के साथ अनुभव नहीं कर रहा हूं। दूसरी तरफ एपीआई के साथ समस्या यह है कि मैं केवल लेख शीर्षकों की एक सूची पुनर्प्राप्त करने का तरीका नहीं समझ पाया और यहां तक ​​कि यदि उसे> 4 एमओओ अनुरोधों की आवश्यकता होगी जो शायद मुझे किसी और अनुरोध से अवरुद्ध कर देगी। तो मेरा सवाल है 1. क्या एपीआई और 2 के माध्यम से केवल विकिपीडिया लेखों के शीर्षक प्राप्त करने का कोई तरीका है या नहीं। क्या एकाधिक अनुरोध/प्रश्नों को एक में जोड़ना है या नहीं। या क्या मुझे वास्तव में विकिपीडिया डंप डाउनलोड करना है?

+0

आप [एपीआई सैंडबॉक्स] (http://en.wikipedia.org/wiki/Special%3aApiSandbox#action=query&prop=extracts&format=json&exintro=&titles=Stack%20Overflow) या वास्तविक [क्वेरी] (http : //en.wikipedia.org/w/api.php? action = query & list = allpages और format = json) – chridam

उत्तर

30

The allpages API module आपको ऐसा करने की अनुमति देता है। इसकी सीमा (जब आप aplimit=max सेट करते हैं) 500 है, तो सभी 4.5 एम लेखों को पूछने के लिए, आपको लगभग 9 000 अनुरोधों की आवश्यकता होगी।

लेकिन एक डंप बेहतर विकल्प है, क्योंकि all-titles-in-ns0 समेत कई अलग-अलग डंप हैं, जैसा कि इसके नाम से पता चलता है, वही है जो आप चाहते हैं (5 जीबी जीजेड टेक्स्ट)।

+1

बहुत बढ़िया, बहुत बहुत धन्यवाद! मैं बिल्कुल इस तरह के डंप की तलाश में था लेकिन वह एक नहीं ढूंढ पाया। मुझे लगता है कि एक डंप की तलाश में एक क्लिक आगे मुझे इस डाउनलोड में लाया होगा :) धन्यवाद! – Flavio

+0

इससे हमें मदद मिली। क्या आप पेज का लिंक दे सकते हैं जिसमें सभी डंप की सूची है? –

+0

@ विवेकसंचेती [यहां पिछले महीने से सभी अंग्रेजी विकिपीडिया डंप सूचीबद्ध करने वाला पृष्ठ है।] (Https://dumps.wikimedia.org/enwiki/20161020/) – svick

संबंधित मुद्दे

 संबंधित मुद्दे