创建爬虫蜘蛛项目(1)python Scrapy教程1.51以上版本

发表于： 2020年8月25日 2022年12月7日
分类： Python, scrapy
标签： file, init, items, ll, middlewares, pipelines, project, python, Scrapy, scrapy教程, settings, spiders, tutorial, your, 创建, 教程, 爬虫, 蜘蛛

在本教程中，我们假设您的系统上已经安装了Scrapy。如果不是这种情况，请参阅安装指南。

我们将刮掉quotes.toscrape.com，这是一个列出着名作家引用的网站。

本教程将指导您完成以下任务：

创建一个新的Scrapy项目
编写蜘蛛来抓取网站并提取数据
使用命令行导出已删除的数据
改变蜘蛛以递归方式跟随链接
使用蜘蛛参数

Scrapy是用Python编写的。如果您不熟悉该语言，您可能需要先了解语言是什么样的，以便充分利用Scrapy。

如果您已经熟悉其他语言，并希望快速学习Python，我们建议您阅读Dive Into Python 3。或者，您可以按照Python教程进行操作。

如果您不熟悉编程并希望从Python开始，那么您可能会发现有用的在线书籍Learn Python The Hard Way。您还可以查看非程序员的Python资源列表。

创建项目

在开始抓取之前，您必须设置一个新的Scrapy项目。输入您要存储代码的目录并运行：

scrapy startproject tutorial

tutorial/
    scrapy.cfg            # deploy configuration file

    tutorial/             # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items definition file

        middlewares.py    # project middlewares file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py

运行爬虫蜘蛛crawl参数(6)python SCRAPY最新教程1.51以上版本 2020年8月28日
如何在WordPress中为自定义帖子类型创建高级搜索表单 2018年12月30日
各种操作系统中venv虚拟环境创建、激活和pip包安装与升级更新(12) - python入门教程 2019年1月7日
简介-Python / C API参考手册（Python教程）（参考资料） 2019年6月2日
- 用于打开URL的可扩展库 - Internet协议和支持（Python教程）（参考资料） 2019年4月3日
如何运行我们的蜘蛛爬虫(3)python SCRAPY教程1.51以上版本 2020年8月26日
将Python 2代码移植到Python 3-Python HOWTOs（Python教程）（参考资料） 2019年6月29日
类的定义、参数声明、数据成员使用详解(9) - python入门教程 2019年1月6日
数据结构-元组-列表-字典(5)python入门教程 2019年1月4日
模块与包的导入与应用import(5)Python语言(语法教程)(参考资料) 2019年2月1日
- 管理可执行的Python zip档案 - 软件打包和分发（Python教程）（参考资料） 2019年5月2日