मैं साइट पर एकाधिक पृष्ठों को क्रॉल करने के लिए स्केपर का उपयोग कर रहा हूं। परिवर्तनीय start_urls
पृष्ठों को क्रॉल करने के लिए परिभाषित करने के लिए उपयोग किया जाता है। मैं शुरू में, 1 पृष्ठ के साथ शुरू होता है इस प्रकार 1 पेज से अधिक जानकारी प्राप्त करने के बाद फ़ाइल example_spider.py
स्केपर में गतिशील start_urls
में start_urls = [1st page]
को परिभाषित करने, मैं निर्धारित करेंगे कि आगे क्या पृष्ठों क्रॉल करने की कर रहे हैं, फिर उसके अनुसार start_urls
आवंटित होगा। इसलिए, मुझे start_urls = [1st page, 2nd page, ..., Kth page]
में परिवर्तनों के साथ example_spider.py के ऊपर ओवरराइट करना होगा, फिर स्केपर को फिर से क्रॉल करें।
क्या यह सबसे अच्छा तरीका है या क्या start_urls
गतिशील रूप से example_splider.py
को ओवरराइट किए बिना स्केपर एपीआई का उपयोग करके असाइन करने का एक बेहतर तरीका है? धन्यवाद।
है: के साथ [एक और] कॉलबैक
parse
कॉलबैक इसी अनुरोध से उपज - आप अन्य पृष्ठों के URL निकाले है, तो आप को स्क्रैप करना चाहते हैं parseItem (स्वयं, प्रतिक्रिया) आइटम वापस? – friddle'parseItem' किसी भी अन्य कॉलबैक के रूप में किसी अन्य कॉलबैक – warvariuc
के साथ एक' आइटम' या अन्य 'अनुरोध' वापस कर सकता है, आपके लिए धन्यवाद – friddle