2012-11-22 15 views
7

मुझे स्केपर (लगभग 1 पृष्ठ/सेकंड) के साथ धीमी क्रॉल गति का सामना करना पड़ रहा है। मैं aws सर्वर से एक प्रमुख वेबसाइट क्रॉल कर रहा हूं इसलिए मुझे यह नेटवर्क समस्या नहीं है। सीपीयू उपयोग 100 के करीब कहीं नहीं है और यदि मैं एकाधिक स्क्रैप प्रक्रियाओं को शुरू करता हूं तो क्रॉल गति बहुत तेज होती है।स्केपर क्रॉलिंग स्पीड धीमा है (60 पेज/मिनट)

स्क्रैप पृष्ठों का एक गुच्छा क्रॉल करने लगता है, फिर कई सेकंड के लिए लटकता है, और फिर दोहराता है।

मैं के साथ खेल की कोशिश की है: CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500

लेकिन यह वास्तव में अतीत सुई स्थानांतरित करने के लिए नहीं लगता है के बारे में 20.

+0

कौन सा स्केपर संस्करण? कोई गैर-डिफ़ॉल्ट सीमा/मिडलवेयर? विराम कुछ ब्लॉकिंग कोड हो सकता है, क्या आप कुछ कर रहे हैं (उदाहरण के लिए डीबी को डेटा लिखना, एस 3 पर अपलोड करना आदि) रिएक्टर को अवरुद्ध करने वाले रिएक्टर थ्रेड में? –

+0

@ सोमैयर चेक सीपीयू | एचडीडी | एलसीएमएलएल के साथ पेज को पार्स किए बिना नेटवर्क स्क्रैपिंग के साथ नेटवर्क उपयोग। 'LOG_LEVEL =' DEBUG'' – nk9

उत्तर

2

क्या आप वाकई गंतव्य क्रॉल करने के लिए अनुमति दी जाती है कर रहे हैं उच्च गति पर साइट? कई साइटें डाउनलोड थ्रेसहोल्ड को लागू करती हैं और "थोड़ी देर बाद" धीरे-धीरे प्रतिक्रिया देना शुरू करती हैं।

+0

सेट करें यदि अनुरोध 503 लौटाया गया है और यदि फ्रंटेंड सर्वर nginx है http://nginx.org/en/docs/http/ngx_http_limit_conn_module.html – nk9

संबंधित मुद्दे