मैं वेब पृष्ठों को क्रॉल करने के लिए स्केपर का उपयोग करना चाहता हूं। टर्मिनल से शुरू यूआरएल पास करने का कोई तरीका है?क्रॉलिंग के लिए स्क्रैप के लिए यूआरएल कैसे देना है?
यह documentation में दी गई है कि या तो मकड़ी या URL का नाम दिया जा सकता है, लेकिन जब मैं यूआरएल को देखते हुए यह एक त्रुटि फेंकता है:
// मेरी मकड़ी के नाम उदाहरण है, लेकिन मैं मेरे मकड़ी के नाम के बजाय यूआरएल दे रहा हूं (अगर मैं स्पाइडर नाम देता हूं तो यह ठीक काम करता है)।
scrapy crawl example.com
त्रुटि:
File "/usr/local/lib/python2.7/dist-packages/Scrapy-0.14.1-py2.7.egg/scrapy/spidermanager.py", line 43, in create raise KeyError("Spider not found: %s" % spider_name) KeyError: 'Spider not found: example.com'
कैसे मैं टर्मिनल में दिए गए यूआरएल पर अपने मकड़ी का उपयोग करने के scrapy कर सकते हैं ??
क्या example.com आपके मकड़ी के स्वीकृत_डोमेन में जोड़ा गया है? –
yes example.com को अनुमति_डोमेन में जोड़ा गया है। मैं वास्तव में क्या चाहता हूं कमांड लाइन से start_url देना है। मैं यह कैसे कर सकता हूं? –