蜘蛛采集内置选择器大全python scrapy.Spider(16)SCRAPY最新教程1.51以上版本

发表于： 2020年9月1日 2022年12月8日
分类： Python, scrapy
标签： extract, GitHub, Google Base XML Feed, h1, html, HtmlResponse, link, None, python, re, Scrapy, Scrapy命令行, scrapy教程, Selector, Selector.remove_namespaces, SelectorList, Spider, text, unicode, XML, XmlResponse, XML响应的选择器, 爬虫, 示例, 蜘蛛, 选择器, 选择对象

选择对象

classscrapy.selector.Selector（response = None，text = None，type = None ）

一个实例Selector是选择其内容的某些部分的响应的包装器。

response是一个HtmlResponse或一个 XmlResponse将被用于选择和提取的数据对象。

text是一个unicode字符串或utf-8编码的文本，用于a response不可用的情况。使用text和response在一起是未定义的行为。

type定义选择器类型，它可以是"html"，"xml"或None（默认）。

如果type是None，则选择器会根据response类型自动选择最佳类型（参见下文），或者默认选择"html"与其一起使用的类型text。

如果typeis None和a response被传递，则从响应类型推断出选择器类型，如下所示：

"html"对于HtmlResponse类型

"xml"对于XmlResponse类型

"html" 除了别的什么

否则，如果type设置，则强制选择器类型，不会进行检测。

xpath(query)

查找与xpath匹配的节点query，并将结果作为SelectorList实例返回，并将所有元素展平。List元素也实现了Selector接口。

query 是一个包含要应用的XPATH查询的字符串。

注意

为方便起见，可以将此方法称为 response.xpath()

css(query)

应用给定的CSS选择器并返回一个SelectorList实例。

query 是一个包含要应用的CSS选择器的字符串。

在后台，CSS查询使用cssselect库和run .xpath()方法转换为XPath查询。

注意

为方便起见，这种方法可以称为 response.css()

extract(): 序列化并将匹配的节点作为unicode字符串列表返回。编码内容百分比未加引号。

re(regex): 应用给定的正则表达式并返回带有匹配项的unicode字符串列表。

regex 可以是已编译的正则表达式，也可以是将使用编译为正则表达式的字符串 re.compile(regex)

注意

需要注意的是re()和re_first()两个解码HTML实体（除<和&）。

register_namespace(prefix: str, uri: str): 注册要在此中使用的给定名称空间Selector。如果不注册名称空间，则无法从非标准名称空间中选择或提取数据。见下面的例子。

remove_namespaces(): 删除所有名称空间，允许使用无名称空间的xpaths遍历文档。见下面的例子。

__nonzero__(): True如果选择了任何真实内容，则返回False 。换句话说，a的布尔值Selector由它选择的内容给出。

SelectorList对象

class scrapy.selector.SelectorList

的SelectorList类是内置的一个子类list 类，它提供了几个方法。

xpath(query)

.xpath()为此列表中的每个元素调用方法，并将其结果作为另一个返回SelectorList。

query 与中的一个是相同的论点 Selector.xpath()

css(query)

.css()为此列表中的每个元素调用方法，并将其结果作为另一个返回SelectorList。

query 与中的一个是相同的论点 Selector.css()

extract(): .extract()为此列表中的每个元素调用该方法，并将其结果返回为flaticned，作为unicode字符串列表。

re(): .re()为此列表中的每个元素调用该方法，并将其结果返回为flaticned，作为unicode字符串列表。

HTML响应的选择器示例

这里有几个Selector例子来说明几个概念。在所有情况下，我们假设已经Selector实例化了这样的HtmlResponse对象：

sel = Selector(html_response)

<h1>从HTML响应主体中选择所有元素，返回Selector对象列表（即SelectorList对象）：
```
sel.xpath("//h1")
```

<h1>从HTML响应主体中提取所有元素的文本，返回unicode字符串列表：

sel.xpath("//h1").extract()         # this includes the h1 tag
sel.xpath("//h1/text()").extract()  # this excludes the h1 tag

迭代所有<p>标签并打印其class属性：

for node in sel.xpath("//p"):
    print node.xpath("@class").extract()

XML响应的选择器 示例

这里有几个例子来说明几个概念。在这两种情况下，我们假设已经Selector实例化了一个XmlResponse像这样的对象：

sel = Selector(xml_response)

<product>从XML响应主体中选择所有元素，返回Selector对象列表（即SelectorList对象）：
```
sel.xpath("//product")
```

从需要注册命名空间的Google Base XML Feed中提取所有价格：

sel.register_namespace("g", "http://base.google.com/ns/1.0")
sel.xpath("//g:price").extract()

删除命名空间

在处理抓取项目时，通常很方便地完全删除命名空间并使用元素名称来编写更简单/方便的XPath。您可以使用该 Selector.remove_namespaces()方法。

让我们展示一个用GitHub博客原子源来说明这一点的例子。

首先，我们打开带有我们要抓取的url的shell：

$ scrapy shell https://github.com/blog.atom

一旦进入shell，我们就可以尝试选择所有<link>对象并看到它不起作用（因为Atom XML命名空间混淆了那些节点）：

>>> response.xpath("//link")
[]

但是一旦我们调用该Selector.remove_namespaces()方法，所有节点都可以通过它们的名称直接访问：

>>> response.selector.remove_namespaces()
>>> response.xpath("//link")
[<Selector xpath='//link' data=u'<link xmlns="http://www.w3.org/2005/Atom'>,
 <Selector xpath='//link' data=u'<link xmlns="http://www.w3.org/2005/Atom'>,
 ...

如果您想知道为什么默认情况下并不总是调用命名空间删除过程而不必手动调用它，这是因为有两个原因，按照相关性，它们是：

删除命名空间需要迭代和修改文档中的所有节点，这对于Scrapy抓取的所有文档执行是相当昂贵的操作
在某些情况下，如果某些元素名称在名称空间之间发生冲突，则实际上可能需要使用名称空间。这些案件非常罕见。

爬虫蜘蛛Scrapy如何使用统计信息收集器 API？(68)python Scrapy教程1.51以上版本 2020年9月28日
爬虫蜘蛛采集请求和回应Request和Response之响应对象scrapy.Response(34)p… 2020年9月10日
爬虫蜘蛛的运行与调试(43)python Scrapy教程1.51以上版本 2020年9月16日
爬虫蜘蛛采集请求和回应Request和Response之请求对象scrapy.Request(33)py… 2020年9月10日
爬虫蜘蛛Scrapy内置下载中间件详细分析DOWNLOADER_MIDDLEWARES(58)pytho… 2020年9月23日
爬虫蜘蛛Scrapy加载和激活扩展Extensions详细介绍(62)python Scrapy教程1.51以上版本 2020年9月25日
爬虫蜘蛛Scrapy如何设置API？(64)python Scrapy教程1.51以上版本 2020年9月26日
爬虫蜘蛛使用python内置日志记录系统Logging(38)python Scrapy教程1.51以上版本 2020年9月12日
爬虫蜘蛛合同contracts(44)python Scrapy教程1.51以上版本 2020年9月16日
爬虫蜘蛛Scrapy shell之运行使用shell详解 (26)python SCRAPY最新教程1.51以上版本 2020年9月6日
运行Scrapy爬虫蜘蛛的方法大全(45)python Scrapy教程1.51以上版本 2020年9月17日

选择对象

SelectorList对象

HTML响应的选择器示例

XML响应的选择器示例

删除命名空间

文章导航