要激活Item Pipeline组件,必须settings.py中将其类添加到 ITEM_PIPELINES设置中,如下例所示: ITEM_PIPELINES = { ‘myproject.pipelines.PricePipeline’: 300, ‘myproject.pipelines.JsonWriterPipeline’: 800, }   您在此设置中为类分配的整数值决定了它们运行的​​顺序:项目从较低值到较高值类进行。习惯上在0-1000范围内定义这些数字。

在深入研究命令行工具及其子命令之前,让我们先了解一下Scrapy项目的目录结构。 虽然可以修改,但默认情况下所有Scrapy项目都具有相同的文件结构,类似于: scrapy.cfg myproject/ __init__.py items.py middlewares.py pipelines.py settings.py spiders/ __init__.py spider1.py spider2.py …   scrapy.cfg文件所在的目录称为项目根目录。该文件包含定义项目设置的python模块的名称。这是一个例子: [settings] default = mypro

在本教程中,我们假设您的系统上已经安装了Scrapy。如果不是这种情况,请参阅安装指南。 我们将刮掉quotes.toscrape.com,这是一个列出着名作家引用的网站。 本教程将指导您完成以下任务: 创建一个新的Scrapy项目 编写蜘蛛来抓取网站并提取数据 使用命令行导出已删除的数据 改变蜘蛛以递归方式跟随链接 使用蜘蛛参数 Scrapy是用Python编写的。如果您不熟悉该语言,您可能需要先了解语言是什么样的,以便充分利用Scrapy。 如果您已经熟悉其他语言,并希望快速学习Python,我们建议您阅读Dive Into Python 3。或者,您可以按照Python教程进行操作。 如