– 用于robots.txt的解析器 – 互联网协议和支持（Python教程）（参考资料）

发表于： 2019年4月4日 2022年10月8日
分类： Python, python语法教程
标签： cal, DELAY, fetch, HTTP, musi, python, rate, RobotFileParser, robotparser, Robots, rp, rrate, txt, url, urllib, useragent, www, 互联网协议, 解析器

`urllib.robotparser`– 解析器for robots.txt

源代码： Lib / urllib / robotparser.py

这个模块提供了一个单独的类RobotFileParser，它回答了关于特定用户代理是否可以在发布robots.txt文件的Web站点上获取URL的问题。有关robots.txt文件，请参阅http://www.robotstxt.org/orig.html.

class urllib.robotparser.RobotFileParser(url=””)

本课程提供阅读，解析和回答有关robots.txt文件在url.

set_url（url）: 设置引用robots.txt文件的URL

read// (): 读取robots.txt URL并将其提供给解析器。

parse（lines）: 解析线条论据

can_fetch// (useragent, url): 回复True如果useragent被允许取url根据解析robots.txt文件。

mtime（）: 返回robots.txt文件是最后一次获取的。这对于需要定期检查新的robots.txt文件的长期运行的web蜘蛛来说是有用的.

modified (): 设置时间robots.txt文件最后被提取到currenttime.

crawl_delay(useragent): 从Crawl-delay返回robots.txt的值为useragent有问题如果没有这样的参数或者它不适用于useragent指定或robots.txt条目此参数的语法无效，则返回None.

版本3.6中的新增.

request_rate（useragent）: 从Request-rate返回robots.txt参数的内容作为命名的元组 RequestRate(requests, seconds)。如果没有这样的参数或它不适用于useragent指定或robots.txt此参数的条目有invalidsyntax，则返回None.

版本3.6中的新建.

以下示例演示了RobotFileParser类的基本用法：

>>> import urllib.robotparser>>> rp = urllib.robotparser.RobotFileParser()>>> rp.set_url("http://www.musi-cal.com/robots.txt")>>> rp.read()>>> rrate = rp.request_rate("*")>>> rrate.requests3>>> rrate.seconds20>>> rp.crawl_delay("*")6>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")False>>> rp.can_fetch("*", "http://www.musi-cal.com/")True

- HTTP协议客户端 - Internet协议和支持（Python教程）（参考资料） 2019年4月5日
- 创建虚拟环境 - 软件包装和分发（Python教程）（参考资料） 2019年5月2日
各种操作系统中venv虚拟环境创建、激活和pip包安装与升级更新(12) - python入门教程 2019年1月7日
- 用于打开URL的可扩展库 - Internet协议和支持（Python教程）（参考资料） 2019年4月3日
如何正确设置WordPress All in One SEO（完整教程） 2022年11月5日
- 子进程管理 - 并发执行（Python教程）（参考资料） 2019年2月27日
- 特定于站点的配置hook-Python Runtime Services（Python教程）（参考资料） 2019年5月9日
如何修复“Googlebot无法访问CSS和JS文件”WordPress中的错误 2018年12月29日
2to3 - 自动Python 2到3代码翻译 - 开发工具（Python教程）（参考资料） 2019年4月26日
如何为SEO优化你的WordPress Robots.txt 2018年12月25日
- POP3协议客户端 - 互联网协议和支持（Python教程）（参考资料） 2019年4月6日

urllib.robotparser– 解析器for robots.txt

`urllib.robotparser`– 解析器for robots.txt