मैं कुछ पृष्ठों को क्रॉल करने के लिए स्केपर का उपयोग कर रहा हूं। मैं एक्सेल शीट से start_urls लाता हूं और मुझे आइटम में यूआरएल को सहेजने की ज़रूरत है।स्क्रैप में मूल start_url कैसे प्राप्त करें (रीडायरेक्ट से पहले)
class abc_Spider(BaseSpider):
name = 'abc'
allowed_domains = ['abc.com']
wb = xlrd.open_workbook(path + '/somefile.xlsx')
wb.sheet_names()
sh = wb.sheet_by_name(u'Sheet1')
first_column = sh.col_values(15)
start_urls = first_column
handle_httpstatus_list = [404]
def parse(self, response):
item = abcspiderItem()
item['url'] = response.url
समस्या यह है कि यूआरएल कुछ अन्य यूआरएल के लिए पुनः निर्देशित हो जाता है (और इस प्रकार की प्रतिक्रिया यूआरएल में कुछ और ही देता है) है। मैं एक्सेल से प्राप्त मूल यूआरएल कैसे प्राप्त करूं?
क्या आपने 'response.request.url' की कोशिश की है? – alecxe
@alecxe: हाँ, उसने भी कोशिश की, मुझे फिर से रीडायरेक्ट यूआरएल मिला, वही यूआरएल मुझे प्रतिक्रिया से मिला। Url –