Scrapy使用Firefox进行抓取(47)python Scrapy教程1.51以上版本

发表于： 2020年9月18日 2022年12月8日
分类： Python, scrapy
标签： cookie, DOM, Firebug, Firefox, html, Javascript, python, Scrapy, scrapy教程, tbody, XPath, XPather, 抓取, 教程, 浏览器, 爬虫, 组件, 蜘蛛, 表达式, 附加, 页面

以下列出了使用Firefox进行抓取的提示和建议，以及一系列有用的Firefox 附加组件，以简化抓取过程。

检查实时浏览器 DOM的注意事项

由于Firefox 附加组件在实时浏览器 DOM上运行，因此在检查页面源时您实际看到的不是原始HTML，而是在应用某些浏览器清理并执行Javascript代码后修改后的HTML。特别是Firefox <tbody>以向表格添加元素而闻名。另一方面，Scrapy不会修改原始页面HTML，因此如果<tbody>在XPath 表达式中使用，则无法提取任何数据。

因此，在使用Firefox和XPath时，请注意以下事项：

在检查DOM时，禁用Firefox Javascript以查找要在Scrapy中使用的XPath
从不使用完整的XPath路径，使用基于属性相对和巧妙的人（如id，class，width等），或任何识别特征等。contains(@href, 'image')
<tbody>除非您真正知道自己在做什么，否则切勿在XPath表达式中包含元素

用于抓取的有用的Firefox附件

萤火虫

Firebug是Web开发人员中广为人知的工具，它对于抓取也非常有用。特别是，当您需要构造用于提取数据的XPath时，它的Inspect Element功能非常方便，因为它允许您在将鼠标移动到每个页面元素上时查看每个页面元素的HTML代码。

有关如何使用Firebug和Scrapy的详细指南，请参阅使用Firebug进行抓取。

XPather

XPather允许您直接在页面上测试XPath表达式。

XPath的检查

XPath Checker是另一个用于测试页面上XPath的Firefox附加组件。

篡改数据

Tamper Data是一个Firefox附加组件，允许您查看和修改Firefox发送的HTTP请求标头。Firebug还允许查看HTTP标头，但不允许修改它们。

Firecookie

Firecookie使查看和管理cookie变得更加容易。您可以使用此扩展程序创建新Cookie，删除现有Cookie，查看当前网站的Cookie列表，管理Cookie权限等等。

数据结构-元组-列表-字典(5)python入门教程 2019年1月4日
- 管理可执行的Python zip档案 - 软件打包和分发（Python教程）（参考资料） 2019年5月2日
安装Python模块的介绍-包括Windows和POSIX用户(Mac OS X和Linux用户) 2019年1月8日
模块与包的导入与应用import(5)Python语言(语法教程)(参考资料) 2019年2月1日
pprint - 漂亮的打印模块(40)Python语言(必读进阶学习教程)(参考资料) 2019年1月28日
与Tk的IDLE-图形用户界面（Python教程）（参考资料） 2019年4月22日
引用/导入模块或包的详解(6)python入门教程 2019年1月4日
使用Python解释器(2)python入门教程 2019年1月2日
蜘蛛采集内置选择器大全python scrapy.Spider(16)SCRAPY最新教程1.51以上版本 2020年9月1日
1.使用C或C ++扩展Python - 扩展和嵌入Python解释器（Python教程）（参考资料） 2019年5月30日
爬虫蜘蛛Scrapy如何使用信号Signals API延迟信号处理程序？(69)python… 2020年9月29日

检查实时浏览器DOM的注意事项