Scrapy使用Firefox进行抓取(47)python Scrapy教程1.51以上版本

发表于： 2020年9月18日 2022年12月8日
分类： Python, scrapy
标签： cookie, DOM, Firebug, Firefox, html, Javascript, python, Scrapy, scrapy教程, tbody, XPath, XPather, 抓取, 教程, 浏览器, 爬虫, 组件, 蜘蛛, 表达式, 附加, 页面

以下列出了使用Firefox进行抓取的提示和建议，以及一系列有用的Firefox 附加组件，以简化抓取过程。

检查实时浏览器 DOM的注意事项

由于Firefox 附加组件在实时浏览器 DOM上运行，因此在检查页面源时您实际看到的不是原始HTML，而是在应用某些浏览器清理并执行Javascript代码后修改后的HTML。特别是Firefox <tbody>以向表格添加元素而闻名。另一方面，Scrapy不会修改原始页面HTML，因此如果<tbody>在XPath 表达式中使用，则无法提取任何数据。

因此，在使用Firefox和XPath时，请注意以下事项：

在检查DOM时，禁用Firefox Javascript以查找要在Scrapy中使用的XPath
从不使用完整的XPath路径，使用基于属性相对和巧妙的人（如id，class，width等），或任何识别特征等。contains(@href, 'image')
<tbody>除非您真正知道自己在做什么，否则切勿在XPath表达式中包含元素

用于抓取的有用的Firefox附件

萤火虫

Firebug是Web开发人员中广为人知的工具，它对于抓取也非常有用。特别是，当您需要构造用于提取数据的XPath时，它的Inspect Element功能非常方便，因为它允许您在将鼠标移动到每个页面元素上时查看每个页面元素的HTML代码。

有关如何使用Firebug和Scrapy的详细指南，请参阅使用Firebug进行抓取。

XPather

XPather允许您直接在页面上测试XPath表达式。

XPath的检查

XPath Checker是另一个用于测试页面上XPath的Firefox附加组件。

篡改数据

Tamper Data是一个Firefox附加组件，允许您查看和修改Firefox发送的HTTP请求标头。Firebug还允许查看HTTP标头，但不允许修改它们。

Firecookie

Firecookie使查看和管理cookie变得更加容易。您可以使用此扩展程序创建新Cookie，删除现有Cookie，查看当前网站的Cookie列表，管理Cookie权限等等。

创建爬虫蜘蛛项目(1)python Scrapy教程1.51以上版本 2020年8月25日
爬虫蜘蛛Scrapy设置Settings大全(36)python SCRAPY最新教程1.51以上版本 2020年9月11日
模块与包的导入与应用import(5)Python语言(语法教程)(参考资料) 2019年2月1日
re正则表达式语法及操作详解(11) - Python语言(必读进阶学习教程)(参考资料) 2019年1月14日
- 创建虚拟环境 - 软件包装和分发（Python教程）（参考资料） 2019年5月2日
数学、字符等表达式的应用(6)Python语言(语法教程)(参考资料) 2019年2月2日
爬虫蜘蛛常见问题解答(42)python Scrapy教程1.51以上版本 2020年9月15日
数据结构-元组-列表-字典(5)python入门教程 2019年1月4日
初始化，终结和Threads-Python / C API参考手册（Python教程）（参考资料） 2019年6月26日
如何在WordPress中为自定义帖子类型创建高级搜索表单 2018年12月30日
使用Python解释器(2)python入门教程 2019年1月2日

检查实时浏览器DOM的注意事项