提取数据 学习如何使用Scrapy提取数据的最佳方法是使用shell Scrapy shell尝试选择器。跑: scrapy shell ‘http://quotes.toscrape.com/page/1/’ 注意 当从命令行运行Scrapy shell时,请记住始终将URL括在引号中,否则包含参数(即&字符)的url 将不起作用。 在Windows上,请使用双引号: scrapy shell “http://quotes.toscrape.com/page/1/” 你会看到类似的东西: [ … Scrapy log here … ] 2016-09-19 12:09:27

要让我们的蜘蛛工作,请转到项目的顶级目录并运行: scrapy crawl quotes   此命令运行quotes我们刚添加的名称的spider ,它将发送一些quotes.toscrape.com域请求。您将获得类似于此的输出: … (omitted for brevity) 2016-12-16 21:24:05 [scrapy.core.engine] INFO: Spider opened 2016-12-16 21:24:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), sc

蜘蛛是您定义的类,Scrapy用来从网站(或一组网站)中提取信息。它们必须子类化 scrapy.Spider并定义要生成的初始请求,可选地如何跟踪页面中的链接,以及如何解析下载的页面内容以提取数据。 这是我们第一个蜘蛛的代码。将其保存在 项目目录quotes_spider.py下的tutorial/spiders文件中: import scrapy class QuotesSpider(scrapy.Spider): name = “quotes” def start_requests(self): urls = [ ‘http://quotes.toscrape.com/page/1/’,

Scrapy在Python(默认Python实现)和PyPy(从PyPy 5.9开始)下运行Python 2.7和Python 3.4或更高版本。 如果您使用的是Anaconda或Miniconda,您可以从conda- forge通道安装该软件包,该软件包含适用于Linux,Windows和OS X的最新软件包。 要使用安装Scrapy conda,请运行: conda install -c conda-forge scrapy 或者,如果您已经熟悉Python包的安装,则可以使用以下命令从PyPI安装Scrapy及其依赖项: pip install Scrapy 请注意