2010-11-24 14 views
5

मुझे अभी स्केपर सेटअप और चल रहा है और यह बहुत अच्छा काम करता है, लेकिन मेरे पास दो (नोब) प्रश्न हैं। मुझे पहले कहना चाहिए कि मैं स्केपर और स्पाइडरिंग साइटों के लिए बिल्कुल नया हूं।स्केपर Django सीमा लिंक क्रॉल

  1. क्या आप क्रॉल किए गए लिंक की संख्या सीमित कर सकते हैं? मेरे पास ऐसी साइट है जो पेजिनेशन का उपयोग नहीं करती है और बस अपने होम पेज पर कई लिंक (जो मैं क्रॉल करता हूं) सूचीबद्ध करता हूं। मुझे उन सभी लिंकों को क्रॉल करना बुरा लगता है जब मुझे वास्तव में केवल पहले 10 या तो क्रॉल करने की आवश्यकता होती है।

  2. आप एक साथ कई मकड़ियों को कैसे चलाते हैं? अभी मैं scrapy crawl example.com कमांड का उपयोग कर रहा हूं, लेकिन मेरे पास example2.com और example3.com के लिए मकड़ियों भी हैं। मैं एक आदेश का उपयोग कर अपने सभी मकड़ियों को चलाने के लिए चाहता हूँ। क्या यह संभव है?

+0

एक बार साइट को स्क्रैप करने से आप उस साइट से प्रतिबंधित हो सकते हैं, और यह खराब/असभ्य अभ्यास है। स्केपर समवर्ती है इसलिए यह कई कनेक्शनों के साथ इसे एक साथ मार रहा है। टाइमआउट सेटिंग के लिए कॉन्फ़िगरेशन सेटिंग्स में देखें। –

+0

क्या आपको मेरे दूसरे प्रश्न के बारे में कोई जानकारी है? ऐसा लगता है कि शायद यह वास्तव में कुछ स्पष्ट है कि मुझे याद आ रही है। – imns

+0

एकाधिक मकड़ियों को एक बार उपयोग करने के लिए: 'scrapy crawl example.com example2.com example3.com' –

उत्तर

2

# 1 के लिए: का प्रयोग न करें नियम लिंक निकालने के लिए और पालन करें, पार्स समारोह और उपज में अपने नियम लिख सकते हैं या वापसी अनुरोध आपत्ति जोड़कर देखते हैं।

# 2 के लिए

: scrapyd कोशिश

0

क्रेडिट शेन को जाता है, यहाँ https://groups.google.com/forum/?fromgroups#!topic/scrapy-users/EyG_jcyLYmU

एक CloseSpider का उपयोग करके आप इस तरह की सीमा का उल्लेख करने की अनुमति चाहिए। के बाद से मैं इसे जरूरत नहीं थी

http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

अभी तक इसे करने की कोशिश नहीं की है। ऐसा लगता है कि आपको अपनी सेटिंग्स फ़ाइल में एक्सटेंशन के रूप में भी सक्षम होना चाहिए (उसी पृष्ठ के शीर्ष देखें)।

संबंधित मुद्दे