Scrapy提供可重复使用的项目管道,用于下载附加到特定项目的文件(例如,当您刮取产品并且还想在本地下载其图像时)。这些管道共享一些功能和结构(我们将它们称为媒体管道),但通常您将使用文件管道或图像管道。 两个管道都实现了这些功能: 避免重新下载最近下载的媒体 指定存储介质的位置(文件系统目录,Amazon S3存储桶,Google云端存储存储桶) 图像管道具有一些用于处理图像的额外功能: 将所有下载的图像转换为通用格式(JPG)和模式(RGB) 缩略图生成 检查图像宽度/高度以确保它们符合最小约束 管道还保留当前正在计划下载的那些媒体URL的内部队列,并将那些到达包含相同媒体的响应连接到该队

要激活Item Pipeline组件,必须settings.py中将其类添加到 ITEM_PIPELINES设置中,如下例所示: ITEM_PIPELINES = { ‘myproject.pipelines.PricePipeline’: 300, ‘myproject.pipelines.JsonWriterPipeline’: 800, }   您在此设置中为类分配的整数值决定了它们运行的​​顺序:项目从较低值到较高值类进行。习惯上在0-1000范围内定义这些数字。