मैं पूरी वेबसाइट को क्रॉल करने में असमर्थ हूं, स्केपर बस सतह पर क्रॉल करता है, मैं गहराई से क्रॉल करना चाहता हूं। पिछले 5-6 बजे के लिए googling और कोई मदद नहीं किया गया। नीचे मेरा कोड:स्क्रैप - पूरी वेबसाइट क्रॉल करें
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
from scrapy import log
class ExampleSpider(CrawlSpider):
name = "example.com"
allowed_domains = ["example.com"]
start_urls = ["http://www.example.com/"]
rules = [Rule(SgmlLinkExtractor(allow=()),
follow=True),
Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
]
def parse_item(self,response):
self.log('A response from %s just arrived!' % response.url)
कृपया मदद करें !!!!
धन्यवाद, अभिराम
बस स्टैक ओवरफ्लो के खिलाफ अपना कोड आजमाया - मेरा आईपी प्रतिबंधित हो गया। यह निश्चित रूप से काम करता है! :) – alecxe
@Alexander - मुझे और अधिक डीबग करने के लिए प्रोत्साहित करता है :) :) ... आईपी प्रतिबंध साथी पर खेद है! –
क्या आप वास्तव में example.com को क्रॉल करने का प्रयास कर रहे हैं? आप जानते हैं कि यह वास्तविक वेबसाइट नहीं है। –