मैं एक स्केपर CrawlSpider
का उपयोग कर रहा हूं और मेरे क्रॉलर को नियंत्रित करने के लिए एक घुमावदार रिएक्टर को परिभाषित करता हूं। परीक्षणों के दौरान मैंने कई जीबी डेटा एकत्रित करने वाली एक समाचार साइट को क्रॉल किया। अधिकांशतः मुझे नवीनतम कहानियों में दिलचस्पी है इसलिए मैं अनुरोधित पृष्ठों, बाइट्स या सेकेंड की संख्या को सीमित करने का एक तरीका ढूंढ रहा हूं।स्केपर: अनुरोध की संख्या सीमित करें या बाइट्स
वहाँ एक आम तरीका सेकंड में
- request_bytes
- request_counts या
- रन समय की एक सीमा को परिभाषित करने के है?
वहाँ एक रास्ता CLOSESIPDER_PAGECOUNT प्रत्येक मकड़ी के लिए गतिशील रूप से सेट किया जा सकता है? –
@ इमान अकबर: कृपया अपनी समस्या के लिए एक उचित प्रश्न बनाएं। – Jon