爬虫蜘蛛合同contracts(44)python Scrapy教程1.51以上版本

发表于： 2020年9月16日 2022年12月8日
分类： Python, scrapy
标签： args, contract, ContractFail, contracts, default, docstring, field, header, post_process, pre_process, process, python, returns, scrapes, Scrapy, scrapy.contracts, scrapy教程, url, 合同, 爬虫, 自定义, 蜘蛛

注意

这是一项新功能（在Scrapy 0.15中引入），可能会受到次要功能/ API更新的影响。检查发行说明以获得更新通知。

测试蜘蛛会变得特别烦人，虽然没有什么能阻止你编写单元测试，但任务很快就会变得很麻烦。Scrapy提供了一种通过合同测试蜘蛛的综合方法。

这允许您通过对示例URL进行硬编码来测试蜘蛛的每个回调，并检查回调如何处理响应的各种约束。每个合同都以一个前缀为前缀@并包含在docstring中。请参阅以下示例：

def parse(self, response):
    """ This function parses a sample response. Some contracts are mingled
    with this docstring.

    @url http://www.amazon.com/s?field-keywords=selfish+gene
    @returns items 1 16
    @returns requests 0 0
    @scrapes Title Author Year Price
    """

使用三个内置契约测试此回调：

class scrapy.contracts.default.UrlContract

此contract（@url）设置在检查此蜘蛛的其他合同条件时使用的样本URL。该合同是强制性的。运行检查时，将忽略缺少此合同的所有回调：

@url url

class scrapy.contracts.default.ReturnsContract

此contract（@returns）设置蜘蛛返回的项目和请求的下限和上限。上限是可选的：

@returns item(s)|request(s) [min [max]]

class scrapy.contracts.default.ScrapesContract

此contract（@scrapes）检查回调返回的所有项是否具有指定的字段：

@scrapes field_1 field_2 ...

使用该check命令运行合同检查。

自定义 合同

如果您发现需要比内置scrapy合同更多的功能，则可以使用以下SPIDER_CONTRACTS设置在项目中创建和加载自己的合同：

SPIDER_CONTRACTS = {
    'myproject.contracts.ResponseCheck': 10,
    'myproject.contracts.ItemValidate': 10,
}

每个合同都必须继承scrapy.contracts.Contract并且可以覆盖三种方法：

classscrapy.contracts.Contract(method, *args)

参数：	*method(collections.abc.Callable)* – 与合同关联的回调函数 *args (list)* – 传递给docstring的参数列表（以空格分隔）

adjust_request_args(args): 它接收一个dict包含Requestobject的默认参数的参数。必须返回相同或修改后的版本。

pre_process(response): 这允许在将样本请求传递给回调之前对从样本请求接收的响应进行各种检查。

post_process(output): 这允许处理回调的输出。迭代器在传递给这个钩子之前被转换为listified。

这是一个演示合同，它检查收到的响应中是否存在自定义标头。scrapy.exceptions.ContractFail为了让失败得到印刷而提升：

from scrapy.contracts import Contract
from scrapy.exceptions import ContractFail

class HasHeaderContract(Contract):
    """ Demo contract which checks the presence of a custom header
        @has_header X-CustomHeader
    """

    name = 'has_header'

    def pre_process(self, response):
        for header in self.args:
            if header not in response.headers:
                raise ContractFail('X-CustomHeader not present')

pprint - 漂亮的打印模块(40)Python语言(必读进阶学习教程)(参考资料) 2019年1月28日
爬虫蜘蛛Scrapy如何使用信号Signals API延迟信号处理程序？(69)python… 2020年9月29日
WordPress 4.7中有什么新功能 2018年12月25日
简介-Python / C API参考手册（Python教程）（参考资料） 2019年6月2日
将Python 2代码移植到Python 3-Python HOWTOs（Python教程）（参考资料） 2019年6月29日
模块与包的导入与应用import(5)Python语言(语法教程)(参考资料) 2019年2月1日
类的定义、参数声明、数据成员使用详解(9) - python入门教程 2019年1月6日
- 将URL解析为组件 - Internet协议和支持（Python教程）（参考资料） 2019年4月3日
Python的数字/字符/切片等介绍(3)python入门教程 2019年1月3日
- 用于打开URL的可扩展库 - Internet协议和支持（Python教程）（参考资料） 2019年4月3日
创建爬虫蜘蛛项目(1)python Scrapy教程1.51以上版本 2020年8月25日