मैं अपनी वेबसाइट से किए गए सभी URL स्क्रैप और एक फाइल करने के लिए सूची में लिखने के लिए अजगर Scrapy module उपयोग करना चाहते हैं। मैंने उदाहरणों में देखा लेकिन ऐसा करने के लिए कोई आसान उदाहरण नहीं देखा।मैं अपनी वेबसाइट से सभी URL की सूची बनाना अजगर Scrapy मॉड्यूल का उपयोग करते हैं?
from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider
from scrapy.http import Request
DOMAIN = 'example.com'
URL = 'http://%s' % DOMAIN
class MySpider(BaseSpider):
name = DOMAIN
allowed_domains = [DOMAIN]
start_urls = [
URL
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
for url in hxs.select('//a/@href').extract():
if not (url.startswith('http://') or url.startswith('https://')):
url= URL + url
print url
yield Request(url, callback=self.parse)
सहेजें इस spider.py
नामक एक फाइल में:
StackOverflow एक साइट लोगों को आप के लिए अपने कोड लिखने के लिए पूछने के लिए नहीं है हो सकता है आप जिस विशिष्ट समस्या को चलाते हैं। – Amber
क्या आपने वहां ट्यूटोरियल की कोशिश की है? यह काफी आत्म व्याख्यात्मक है। आप/है, तो/ट्यूटोरियल की कोशिश की और अभी भी समस्या है, कुछ कोड है कि आप पहले (+1 @Amber) – inspectorG4dget
एम्बर, और inspectorG4dget की कोशिश की है पोस्ट करने का प्रयास है, मैं प्रोग्राम है जो ऐसा करता है लिखा था, लेकिन अभी तक यह पोस्ट नहीं कर सकते क्योंकि मेरे पास पर्याप्त प्रतिष्ठा नहीं है - एक प्रतीक्षा समय है। मैं कल सुबह समाधान पोस्ट करूंगा। –