मैंने अभी स्केपर स्थापित किया है और उनके सरल dmoz tutorial का पालन किया है जो काम करता है। मैंने सिर्फ पायथन के लिए मूल फ़ाइल हैंडलिंग देखा और क्रॉलर को फ़ाइल से यूआरएल की एक सूची पढ़ने की कोशिश की लेकिन कुछ त्रुटियां मिलीं। यह शायद गलत है लेकिन मैंने इसे एक शॉट दिया। क्या कोई मुझे यूआरएल की सूची को स्क्रैप में पढ़ने का उदाहरण दिखाएगा? अग्रिम में धन्यवाद।स्क्रैप फ़ाइल से स्क्रैप करने के लिए यूआरएल की सूची पढ़ें?
from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
f = open("urls.txt")
start_urls = f
def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)
'readlines()' प्रत्येक पंक्ति के अंत में नई-पंक्तियों बरकरार रखती है। मैंने एक संपादन सबमिट किया है जो नईलाइनों को 'स्ट्रिप()' करेगा और फ़ाइल बंद कर देगा। –