2013-10-03 2 views
7

मैं एक स्केपर CrawlSpider का उपयोग कर रहा हूं और मेरे क्रॉलर को नियंत्रित करने के लिए एक घुमावदार रिएक्टर को परिभाषित करता हूं। परीक्षणों के दौरान मैंने कई जीबी डेटा एकत्रित करने वाली एक समाचार साइट को क्रॉल किया। अधिकांशतः मुझे नवीनतम कहानियों में दिलचस्पी है इसलिए मैं अनुरोधित पृष्ठों, बाइट्स या सेकेंड की संख्या को सीमित करने का एक तरीका ढूंढ रहा हूं।स्केपर: अनुरोध की संख्या सीमित करें या बाइट्स

वहाँ एक आम तरीका सेकंड में

  • request_bytes
  • request_counts या
  • रन समय की एक सीमा को परिभाषित करने के है?

उत्तर

16

scrapy में वहाँ वर्ग scrapy.contrib.closespider.CloseSpider है। आप चर CLOSESPIDER_TIMEOUT, CLOSESPIDER_ITEMCOUNT, CLOSESPIDER_PAGECOUNT और CLOSESPIDER_ERRORCOUNT को परिभाषित कर सकते हैं।

मकड़ी स्वत: बंद हो जब मानदंडों को पूरा किया जाता है: http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

+0

वहाँ एक रास्ता CLOSESIPDER_PAGECOUNT प्रत्येक मकड़ी के लिए गतिशील रूप से सेट किया जा सकता है? –

+1

@ इमान अकबर: कृपया अपनी समस्या के लिए एक उचित प्रश्न बनाएं। – Jon

संबंधित मुद्दे