爬虫蜘蛛管理暂停和恢复抓取(54)python Scrapy教程1.51以上版本

发表于： 2020年9月21日 2022年12月8日
分类： Python, scrapy
标签： callback, cookie, def, JOBDIR, other, python, Response, Scrapy, scrapy crawl, scrapy教程, self, somearg, somespider, state, 序列化, 抓取, 持久性, 爬虫, 蜘蛛

有时，对于大型网站，最好暂停抓取并稍后恢复。

Scrapy通过提供以下设施支持此功能：

一个调度程序，用于在磁盘上保留计划的请求
重复过滤器，用于保留磁盘上的访问请求
一个扩展，使一些蜘蛛状态（键/值对）在批次之间保持不变

工作目录

要启用持久性支持，您只需通过该设置定义作业目录JOBDIR。该目录将用于存储所有必需的数据以保持单个作业的状态（即蜘蛛运行）。重要的是要注意，这个目录不能由不同的蜘蛛共享，甚至不能由同一个蜘蛛的不同作业/运行共享，因为它意味着用于存储单个作业的状态。

如何使用

要启动支持持久性的蜘蛛，请按以下方式运行：

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

然后，您可以随时安全地停止蜘蛛（通过按Ctrl-C或发送信号），然后通过发出相同的命令恢复它：

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

在批次之间保持持久状态

有时你会想要在暂停/恢复批次之间保持一些持久的蜘蛛状态。您可以使用该spider.state属性，该属性应该是一个字典。有一个内置的扩展，负责在蜘蛛启动和停止时从作业目录中序列化，存储和加载该属性。

这是一个使用蜘蛛状态的回调示例（为简洁起见省略了其他代码）：

def parse_item(self, response):
    # parse item here
    self.state['items_count'] = self.state.get('items_count', 0) + 1

持久性问题

如果您希望能够使用Scrapy 持久性支持，请记住以下几点：

Cookie到期

Cookie可能会过期。因此，如果您没有快速恢复蜘蛛，则预定的请求可能不再有效。如果您的蜘蛛不依赖cookie，这将不会成为问题。

请求序列化

请求必须由pickle模块序列化，以便持久性工作，因此您应确保您的请求是可序列化的。

这里最常见的问题是使用lambda无法持久化的请求回调函数。

因此，例如，这不起作用：

def some_callback(self, response):
    somearg = 'test'
    return scrapy.Request('http://www.example.com', callback=lambda r: self.other_callback(r, somearg))

def other_callback(self, response, somearg):
    print "the argument passed is:", somearg

但这会：

def some_callback(self, response):
    somearg = 'test'
    return scrapy.Request('http://www.example.com', callback=self.other_callback, meta={'somearg': somearg})

def other_callback(self, response):
    somearg = response.meta['somearg']
    print "the argument passed is:", somearg

如果要记录无法序列化的请求，可以在项目的设置页面中将 SCHEDULER_DEBUG设置设置为True。这是False默认的。

蜘蛛采集内置选择器大全python scrapy.Spider(16)SCRAPY最新教程1.51以上版本 2020年9月1日
蜘蛛采集选择器xpath的详细使用讲解python… 2020年9月1日
类的定义、参数声明、数据成员使用详解(9) - python入门教程 2019年1月6日
使用蒙特卡洛方案为奇异期权定价的观察 2022年9月1日
爬虫蜘蛛Scrapy如何使用信号Signals API延迟信号处理程序？(69)python… 2020年9月29日
数据模型、对象、值和类型(3)Python语言的核心语法(语法教程)(参考资料) 2019年2月1日
与Tk的IDLE-图形用户界面（Python教程）（参考资料） 2019年4月22日
Python的数字/字符/切片等介绍(3)python入门教程 2019年1月3日
使用Python解释器(2)python入门教程 2019年1月2日
- 管理可执行的Python zip档案 - 软件打包和分发（Python教程）（参考资料） 2019年5月2日
- 用于打开URL的可扩展库 - Internet协议和支持（Python教程）（参考资料） 2019年4月3日