start_requests方法的快捷方式(4)python SCRAPY教程1.51以上版本

发表于： 2020年8月27日 2022年12月7日
分类： Python, scrapy
标签： filename, HTTP, Page, parse, python, quotes, Request, requests, Response, Scrapy, scrapy教程, Spider, start, toscrape, url, urls, 快捷方式, 方法, 爬虫, 蜘蛛

引擎盖下发生了什么？

Scrapy会调度Spider 方法scrapy.Request返回的对象start_requests。在收到每个响应后，它实例化Response对象并调用与请求相关的回调方法（在本例中为 parse方法），将响应作为参数传递。

start_requests方法的快捷方式

您可以只使用URL列表定义类属性，而不是实现从URL start_requests()生成scrapy.Request对象的方法start_urls。然后，默认实现将使用此列表start_requests()来为您的spider创建初始请求：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/',
    ]

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)

parse()即使我们没有明确告诉Scrapy这样做，也会调用该方法来处理这些URL的每个请求。发生这种情况的原因parse()是Scrapy的默认回调方法，在没有明确分配回调的情况下调用请求。

与Tk的IDLE-图形用户界面（Python教程）（参考资料） 2019年4月22日
- 用于打开URL的可扩展库 - Internet协议和支持（Python教程）（参考资料） 2019年4月3日
- 管理可执行的Python zip档案 - 软件打包和分发（Python教程）（参考资料） 2019年5月2日
蜘蛛采集内置选择器大全python scrapy.Spider(16)SCRAPY最新教程1.51以上版本 2020年9月1日
数学、字符等表达式的应用(6)Python语言(语法教程)(参考资料) 2019年2月2日
使用Python解释器(2)python入门教程 2019年1月2日
初始化，终结和Threads-Python / C API参考手册（Python教程）（参考资料） 2019年6月26日
蜘蛛采集选择器xpath的详细使用讲解python… 2020年9月1日
Python安装及包或模块pip安装详细教程 2019年1月8日
re正则表达式语法及操作详解(11) - Python语言(必读进阶学习教程)(参考资料) 2019年1月14日
模块与包的导入与应用import(5)Python语言(语法教程)(参考资料) 2019年2月1日