मैं here पर चर्चा के रूप में एक स्क्रिप्ट से स्केपर चलाने की कोशिश कर रहा हूं। इसने this स्निपेट का उपयोग करने का सुझाव दिया, लेकिन जब मैं ऐसा करता हूं तो यह अनिश्चित काल तक लटकता है। यह संस्करण 10 में वापस लिखा गया था; क्या यह अभी भी स्थिर स्थिर के साथ संगत है?एक स्क्रिप्ट से स्कैनिंग चल रहा है - हैंग
उत्तर
from scrapy import signals, log
from scrapy.xlib.pydispatch import dispatcher
from scrapy.crawler import CrawlerProcess
from scrapy.conf import settings
from scrapy.http import Request
def handleSpiderIdle(spider):
'''Handle spider idle event.''' # http://doc.scrapy.org/topics/signals.html#spider-idle
print '\nSpider idle: %s. Restarting it... ' % spider.name
for url in spider.start_urls: # reschedule start urls
spider.crawler.engine.crawl(Request(url, dont_filter=True), spider)
mySettings = {'LOG_ENABLED': True, 'ITEM_PIPELINES': 'mybot.pipeline.validate.ValidateMyItem'} # global settings http://doc.scrapy.org/topics/settings.html
settings.overrides.update(mySettings)
crawlerProcess = CrawlerProcess(settings)
crawlerProcess.install()
crawlerProcess.configure()
class MySpider(BaseSpider):
start_urls = ['http://site_to_scrape']
def parse(self, response):
yield item
spider = MySpider() # create a spider ourselves
crawlerProcess.queue.append_spider(spider) # add it to spiders pool
dispatcher.connect(handleSpiderIdle, signals.spider_idle) # use this if you need to handle idle event (restart spider?)
log.start() # depends on LOG_ENABLED
print "Starting crawler."
crawlerProcess.start()
print "Crawler stopped."
अद्यतन:
आप भी की आवश्यकता है मकड़ी प्रति सेटिंग्स इस उदाहरण देखें:
name = punderhere_com
allowed_domains = plunderhere.com
spiderClass = scraper.spiders.plunderhere_com
start_urls = http://www.plunderhere.com/categories.php?
मुझे यह [https://gist.github.com/1051117) ट्रेसबैक मिलता है। मेरी स्केपर परियोजना को स्क्रैपर नाम दिया गया है। क्या यह समस्या हो सकती है? – ciferkey
मुझे लगता है कि यह मुद्दा है। यह एक असली परियोजना से है। आप स्क्रैपर के संदर्भ हटा सकते हैं। आपको बस मकड़ियों के लिए कुछ सेटिंग्स की जरूरत है। – warvariuc
तो जब मैं अपने प्रोजेक्ट के लिए सेटिंग्स आयात करने के बारे में कैसे जा सकता हूं तो स्क्रैपर के संदर्भों को हटाने के बाद? – ciferkey
- 1. अंदर वर्चुअलनेव बिन से पाइथन स्क्रिप्ट चल रहा है
- 2. एक स्क्रिप्ट में scipy's oneway anova चल रहा है
- 3. एफ # प्रोग्रामेटिक रूप से चल रहा है .fsx स्क्रिप्ट फ़ाइल
- 4. क्रोन का उपयोग कर एक पाइथन स्क्रिप्ट चल रहा है?
- 5. माइक्रोसॉफ्ट एसक्यूएल सर्वर प्रबंधन स्टूडियो एक स्क्रिप्ट के अंदर से स्क्रिप्ट चल रहा है
- 6. दौरान WinForm आवेदन यूआई हैंग लंबे समय से चल ऑपरेशन
- 7. खोल स्क्रिप्ट के भीतर एक अजगर स्क्रिप्ट चल रहा है - स्थिति
- 8. Node.js स्क्रिप्ट चल रहा है, लेकिन यह रुक जाएगा नहीं!
- 9. PHP कचरा संग्रह जबकि स्क्रिप्ट चल रहा है
- 10. चल रहा है और चल रहा है mysql क्वेरी
- 11. PHP निष्पादन से libreoffice चल रहा है()
- 12. डीबगर से कितना धीमा चल रहा है?
- 13. मैथमैटिका मेमोरी से बाहर चल रहा है
- 14. ढेर अंतरिक्ष से बाहर चल रहा है
- 15. पर्ल पाइपलाइन से "कम" चल रहा है
- 16. डीबी कनेक्शन से बाहर चल रहा है!
- 17. ग्रहण से JUnit टेस्ट चल रहा है
- 18. emacs से py.test चल रहा है
- 19. एक सरणी पर dism_all चल रहा है?
- 20. शेल स्क्रिप्ट क्रॉन्टाब के माध्यम से नहीं चल रहा है, मैन्युअल रूप से
- 21. एक ही पायथन दुभाषिया उदाहरण एक साथ कई स्क्रिप्ट चल रहा है?
- 22. बहुत से वर्ग स्कैनिंग और विधि कैश स्कैनिंग मेमोरी
- 23. एक /etc/init.d स्क्रिप्ट में डेमॉन पर कॉल अवरुद्ध है, पृष्ठभूमि में नहीं चल रहा है
- 24. चल शेल स्क्रिप्ट ++
- 25. रूबी रत्न स्थापित कर रहा है, हैंग रत्न
- 26. एक बैच फ़ाइल से सिग्विन चल रही स्क्रिप्ट?
- 27. डीबग नोड, यह क्या चल रहा है?
- 28. पावरहेल एक सेवा के तहत चल रहा है * .zip CopyHere
- 29. MSDeployPublish पर MSDeploy "हैंग"
- 30. एकाधिक JVMs चल रहा है
:
मकड़ियों के लिए फ़ाइल में सेटिंग का उदाहरण यह प्रश्न और उत्तर अद्यतन के लिए तैयार हो सकता है। यहां [स्केपर से हालिया स्निपेट] है (http://scrapy.readthedocs.org/en/0.16/topics/practices.html)। यह काम करता है, लेकिन मेरे लिए सवाल यह हो जाता है: आप ट्विस्ट रिएक्टर को कैसे रोकते हैं और कब किया जाता है? – bahmait