蜘蛛是定义如何抓取某个站点(或一组站点)的类,包括如何执行爬行(即跟随链接)以及如何从其页面中提取结构化数据(即抓取项目)。换句话说,Spiders是您为特定站点(或者在某些情况下,一组站点)爬网和解析页面定义自定义行为的地方。 对于蜘蛛,刮擦周期经历如下: 首先生成初始请求以爬网第一个URL,并指定要使用从这些请求下载的响应调用的回调函数。 第一个执行请求是通过调用 start_requests()(默认情况下)为在请求中作为回调函数的方法中Request指定的URL start_urls和parse方法生成的 方法获得的。 在回调函数中,您解析响应(网页)并返回带有提取的数据,Item对象

您可以从没有参数的Scrapy工具开始,它将打印一些使用帮助和可用命令: Scrapy X.Y – no active project Usage: scrapy <command> [options] [args] Available commands: crawl Run a spider fetch Fetch a URL using the Scrapy downloader […] 如果您在Scrapy项目中,第一行将打印当前活动的项目。在这个例子中,它是从项目外部运行的。如果从项目内部运行,它将打印出如下内容: Scrapy X.Y – project: mypro