स्केपर: अनुरोध की संख्या सीमित करें या बाइट्स

मैं एक स्केपर CrawlSpider का उपयोग कर रहा हूं और मेरे क्रॉलर को नियंत्रित करने के लिए एक घुमावदार रिएक्टर को परिभाषित करता हूं। परीक्षणों के दौरान मैंने कई जीबी डेटा एकत्रित करने वाली एक समाचार साइट को क्रॉल किया। अधिकांशतः मुझे नवीनतम कहानियों में दिलचस्पी है इसलिए मैं अनुरोधित पृष्ठों, बाइट्स या सेकेंड की संख्या को सीमित करने का एक तरीका ढूंढ रहा हूं।स्केपर: अनुरोध की संख्या सीमित करें या बाइट्स

वहाँ एक आम तरीका सेकंड में

request_bytes
request_counts या
रन समय की एक सीमा को परिभाषित करने के है?

स्रोत

2013-10-03 Jon

scrapy में वहाँ वर्ग scrapy.contrib.closespider.CloseSpider है। आप चर CLOSESPIDER_TIMEOUT, CLOSESPIDER_ITEMCOUNT, CLOSESPIDER_PAGECOUNT और CLOSESPIDER_ERRORCOUNT को परिभाषित कर सकते हैं।

मकड़ी स्वत: बंद हो जब मानदंडों को पूरा किया जाता है: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

स्रोत

2013-10-03 14:34:49 Jon

वहाँ एक रास्ता CLOSESIPDER_PAGECOUNT प्रत्येक मकड़ी के लिए गतिशील रूप से सेट किया जा सकता है? –

@ इमान अकबर: कृपया अपनी समस्या के लिए एक उचित प्रश्न बनाएं। – Jon

स्केपर: अनुरोध की संख्या सीमित करें या बाइट्स

उत्तर

संबंधित मुद्दे