Scrapy使用Firefox进行抓取(47)python Scrapy教程1.51以上版本
以下列出了使用Firefox进行抓取的提示和建议,以及一系列有用的Firefox附加组件,以简化抓取过程。
检查实时浏览器DOM的注意事项
由于Firefox附加组件在实时浏览器DOM上运行,因此在检查页面源时您实际看到的不是原始HTML,而是在应用某些浏览器清理并执行Javascript代码后修改后的HTML。特别是Firefox <tbody>
以向表格添加元素而闻名。另一方面,Scrapy不会修改原始页面HTML,因此如果<tbody>
在XPath表达式中使用,则无法提取任何数据。
因此,在使用Firefox和XPath时,请注意以下事项:
用于抓取的有用的Firefox附件
萤火虫
Firebug是Web开发人员中广为人知的工具,它对于抓取也非常有用。特别是,当您需要构造用于提取数据的XPath时,它的Inspect Element功能非常方便,因为它允许您在将鼠标移动到每个页面元素上时查看每个页面元素的HTML代码。
篡改数据
Tamper Data是一个Firefox附加组件,允许您查看和修改Firefox发送的HTTP请求标头。Firebug还允许查看HTTP标头,但不允许修改它们。
评论被关闭。