如何运行我们的蜘蛛爬虫(3)python SCRAPY教程1.51以上版本

发表于： 2020年8月26日 2022年12月7日
分类： Python, scrapy
标签： core, Crawled, DEBUG, engine, GET, html, HTTP, None, python, quotes, referer, Scrapy, scrapy教程, toscrape, 安装Scrapy, 爬虫, 蜘蛛

要让我们的蜘蛛工作，请转到项目的顶级目录并运行：

scrapy crawl quotes

此命令运行quotes我们刚添加的名称的spider ，它将发送一些quotes.toscrape.com域请求。您将获得类似于此的输出：

... (omitted for brevity)
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Spider opened
2016-12-16 21:24:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-12-16 21:24:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/> (referer: None)
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-1.html
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-2.html
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Closing spider (finished)
...

现在，检查当前目录中的文件。您应该注意到已经创建了两个新文件：quotes-1.html和quotes-2.html，以及各个URL的内容，正如我们的parse方法所指示的那样。

注意

如果您想知道为什么我们还没有解析HTML，请继续，我们将很快介绍。

使用蒙特卡洛方案为奇异期权定价的观察 2022年9月1日
爬虫蜘蛛Scrapy如何设置API？(64)python Scrapy教程1.51以上版本 2020年9月26日
Scrapy下载和处理文件和图像并存储到google云端(50)python Scrapy教程1.51以上版本 2020年9月19日
通用蜘蛛爬虫抓取采集数据scrapy.Spider(14)python SCRAPY最新教程1.51以上版本 2020年8月31日
爬虫蜘蛛的运行与调试(43)python Scrapy教程1.51以上版本 2020年9月16日
创建第一个爬虫蜘蛛(2)python SCRAPY教程1.51以上版本 2020年8月26日
爬虫蜘蛛合同contracts(44)python Scrapy教程1.51以上版本 2020年9月16日
如何在WordPress边栏中显示随机引号 2018年12月28日
爬虫蜘蛛采集请求和回应Request和Response之请求对象scrapy.Request(33)py… 2020年9月10日
爬虫蜘蛛基准测试scrapy bench(53)python Scrapy教程1.51以上版本 2020年9月21日
爬虫蜘蛛Scrapy如何使用项目导出器Item Exporters？(70)python… 2020年9月29日