选择对象 classscrapy.selector.Selector(response = None,text = None,type = None ) 一个实例Selector是选择其内容的某些部分的响应的包装器。 response是一个HtmlResponse或一个 XmlResponse将被用于选择和提取的数据对象。 text是一个unicode字符串或utf-8编码的文本,用于a response不可用的情况。使用text和response在一起是未定义的行为。 type定义选择器类型,它可以是”html”,”xml”或None(默认)。 如果type是None,则选择器会根据resp

本节包含可用内置命令的列表,其中包含说明和一些用法示例。请记住,您始终可以通过运行以获取有关每个命令的更多信息: scrapy <command> -h   你可以看到所有可用的命令: scrapy -h   有两种命令,一种只能在Scrapy项目内部工作(特定于项目的命令)和那些在没有活动的Scrapy项目(全局命令)的情况下工作的命令,尽管从项目内部运行时它们可能表现略有不同(因为他们会使用项目覆盖设置)。 全局命令: startproject genspider settings runspider shell fetch view version 仅限项

您通常使用该scrapy工具做的第一件事是创建Scrapy项目: scrapy startproject myproject [project_dir]   这将在project_dir目录下创建一个Scrapy项目。如果project_dir没有指定,project_dir将是相同的myproject。 接下来,进入新项目目录: cd project_dir   您已准备好使用该scrapy命令从那里管理和控制您的项目。

您可以从没有参数的Scrapy工具开始,它将打印一些使用帮助和可用命令: Scrapy X.Y – no active project Usage: scrapy <command> [options] [args] Available commands: crawl Run a spider fetch Fetch a URL using the Scrapy downloader […] 如果您在Scrapy项目中,第一行将打印当前活动的项目。在这个例子中,它是从项目外部运行的。如果从项目内部运行,它将打印出如下内容: Scrapy X.Y – project: mypro