जो wget
को जानते हैं, उनके पास एक विकल्प --spider
है, जो किसी को यह जांचने की अनुमति देता है कि कोई लिंक तोड़ दिया गया है या नहीं, वास्तव में वेबपृष्ठ डाउनलोड किए बिना। मैं पाइथन में एक ही काम करना चाहता हूं। मेरी समस्या यह है कि मेरे पास 100'000 लिंक की एक सूची है जिसे मैं देखना चाहता हूं, दिन में सबसे अधिक बार, और सप्ताह में कम से कम एक बार। किसी भी मामले में यह बहुत अनावश्यक यातायात उत्पन्न करेगा।वेबपृष्ठ डाउनलोड किए बिना पाइथन का उपयोग कर एक लिंक मर गया है या नहीं
जहां तक मैं urllib2.urlopen()
documentation से समझता हूं, यह पृष्ठ डाउनलोड नहीं करता है बल्कि केवल मेटा-सूचना है। क्या ये सही है? या क्या यह एक अच्छा तरीके से करने का कोई और तरीका है?
बेस्ट,
ट्रॉल्स
दाएं, HEAD आपको संदेश के शरीर को डाउनलोड किए बिना शीर्षलेख (HTTP स्थिति सहित) प्राप्त करेगा। कुछ साइटें (गलत) 200 की स्थिति वाले 'नहीं मिला'/404 पृष्ठों को भेजने के लिए कॉन्फ़िगर की गई हैं, हालांकि, उन स्थितियों का पता लगाना मुश्किल होगा। – JAL
जहां तक मैं यह कह सकता हूं कि wget --spider क्या करता है। –
समाधान के साथ-साथ गलत कॉन्फ़िगर किए गए साइटों पर विचारों के लिए बहुत कुछ धन्यवाद (जो ध्यान में रखने योग्य है!) - यही वही है जो मुझे चाहिए :) – Troels