要激活Item Pipeline组件,必须settings.py中将其类添加到 ITEM_PIPELINES设置中,如下例所示: ITEM_PIPELINES = { ‘myproject.pipelines.PricePipeline’: 300, ‘myproject.pipelines.JsonWriterPipeline’: 800, }   您在此设置中为类分配的整数值决定了它们运行的​​顺序:项目从较低值到较高值类进行。习惯上在0-1000范围内定义这些数字。

在一个项目被蜘蛛抓取之后,它被发送到项目管道,该项目管道通过顺序执行的几个组件处理它。 每个项目管道组件(有时简称为“项目管道”)是一个实现简单方法的Python类。他们收到一个项目并对其执行操作,同时决定该项目是否应该继续通过管道或被丢弃并且不再处理。 项目管道的典型用途是: 清理HTML数据 验证已删除的数据(检查项目是否包含某些字段) 检查重复项(并删除它们) 将已删除的项目存储在数据库中 编写自己的项目管道 每个项管道组件都是一个必须实现以下方法的Python类: process_item(自我,项目,蜘蛛) 为每个项目管道组件调用此方法。process_item() 必须要么:返回带