Scrapy默认值针对特定网站的爬网进行了优化。这些站点通常由单个Scrapy蜘蛛处理,尽管这不是必需的或不需要的(例如,有一些通用蜘蛛可以处理抛出它们的任何给定站点)。 除了这种“集中爬行”之外,还有另一种常见类型的爬网,它覆盖了大量(可能无限制)的域数,并且仅受时间或其他任意约束的限制,而不是在域被爬行到完成时停止或当没有更多的请求要执行时。这些被称为“广泛爬行”,是搜索引擎使用的典型爬虫。 这些是广泛爬行中常见的一些常见属性: 他们抓取许多域(通常是无限制的)而不是特定的一组站点 他们不一定要抓取域完成,因为这样做是不切实际的(或不可能的),而是限制爬行的时间或页数爬行 它们在逻辑上