में मकड़ी वस्तु पुनः प्राप्त यह scrapy के डिफ़ॉल्ट Dupefilter
वर्ग विधि request_seen
Scrapy - dupefilter
class RFPDupeFilter(BaseDupeFilter):
def request_seen(self, request):
fp = self.request_fingerprint(request)
if fp in self.fingerprints:
return True
self.fingerprints.add(fp)
if self.file:
self.file.write(fp + os.linesep)
एक कस्टम dupefilter को लागू करते समय है। मैं अन्य स्केपर मिडलवेयर
के विपरीत इस वर्ग से spider
ऑब्जेक्ट को पुनर्प्राप्त नहीं कर सकता है क्या कोई तरीका है कि मैं जान सकता हूं कि spider
ऑब्जेक्ट यह है? तो मैं स्पाइडर आधार पर एक मकड़ी के माध्यम से इसे अनुकूलित कर सकते हैं?
इसके अलावा मैं केवल एक मिडलवेयर को लागू नहीं कर सकता जो यूआरएल पढ़ता है और इसे एक सूची में रखता है & एक कस्टम डुप्लिटर के बजाय डुप्लिकेट की जांच करता है। इसका कारण यह है मैं रुकना चाहते हैं/फिर से शुरू क्रॉल और JOBDIR