您的位置:  首页 » Python » 爬虫蜘蛛项目加载器Item Loader类详解之嵌套加载器详解 (22)python SCRAPY最新教程1.51以上版本

解析文档子节中的相关值时,创建嵌套加载器会很有用。想象一下,您从页面的页脚中提取详细信息,如下所示:

例:

<footer>
    <a class="social" href="https://facebook.com/whatever">Like Us</a>
    <a class="social" href="https://twitter.com/whatever">Follow Us</a>
    <a class="email" href="mailto:whatever@example.com">Email Us</a>
</footer>

 

如果没有嵌套加载器,则需要为要提取的每个值指定完整的xpath(或css)。

例:

loader = ItemLoader(item=Item())
# load stuff not in the footer
loader.add_xpath('social', '//footer/a[@class = "social"]/@href')
loader.add_xpath('email', '//footer/a[@class = "email"]/@href')
loader.load_item()

 

相反,您可以使用页脚选择器创建嵌套加载程序并添加相对于页脚的值。功能相同但您避免重复页脚选择器。

例:

loader = ItemLoader(item=Item())
# load stuff not in the footer
footer_loader = loader.nested_xpath('//footer')
footer_loader.add_xpath('social', 'a[@class = "social"]/@href')
footer_loader.add_xpath('email', 'a[@class = "email"]/@href')
# no need to call footer_loader.load_item()
loader.load_item()

 

您可以任意嵌套加载器,它们可以使用xpath或css选择器。作为一般准则,当它们使代码更简单时使用嵌套的加载器但是不要过度嵌套或者解析器变得难以阅读。

发表评论

电子邮件地址不会被公开。 必填项已用*标注