• 欢迎使用千万蜘蛛池,网站外链优化,蜘蛛池引蜘蛛快速提高网站收录,收藏快捷键 CTRL + D

强引蜘蛛api(蜘蛛的感知能力有多强)


《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目,包括技术、学习、实用与各种有趣的内容。本期推荐的 Scrapy是一个快速的高级网页抓取和网页抓取框架,用于抓取网站并从其页面中提取结构化数据。它可用于广泛的用途,从数据挖掘到监控和自动化测试。

Scrapy 是一个用于抓取网站和提取结构化数据的应用程序框架,可用于各种有用的应用程序,如数据挖掘、信息处理或历史存档。

下面是一个爬虫的代码,它从网站 http://quotes.toscrape.com 中 抓取名言 ,遵循分页:

将其放入一个文本文件中,将其命名为类似名称 quotes_spider.py 并使用以下 runspider 命令运行:

完成后,您将在 quotes.jl 文件中获得 JSON 行格式的引号列表,其中包含文本和作者,如下所示:

Spider 中间件是 Scrapy 蜘蛛处理机制的钩子框架,可以在其中插入自定义功能来处理发送给 Spider 进行处理的响应以及处理从蜘蛛生成的请求和项目。

数据流:

执行流程:

Scrapy 需要 Python 3.6+,CPython 实现(默认)或 PyPy 7.2.0+ 实现。

安装 Scrapy

如果您使用的是 Anaconda Miniconda ,则可以从 conda- forge频道安装该软件包,该频道具有适用于 Linux、Windows 和 macOS 的最新软件包。

要使用 安装 Scrapy conda ,请运行:

或者,如果您已经熟悉 Python 包的安装,则可以使用以下命令从 PyPI 安装 Scrapy 及其依赖项:

注意: Scrapy 是用纯 Python 编写的,并且依赖于一些关键的 Python 包

爬虫API

Scrapy API 的主要入口点是 Crawler 对象,通过 from_crawler 类方法传递给扩展。该对象提供对所有 Scrapy 核心组件的访问,它是扩展访问它们并将其功能挂钩到 Scrapy 的唯一方法。

设置 API

设置 Scrapy 中使用的默认设置优先级的键名和优先级的字典。

每个项目都定义了一个设置入口点,为其提供了一个用于标识的代码名称和一个整数优先级。在 Settings 类中设置和检索值时,较大的优先级比较小的优222222先级更高 。

蜘蛛加载器API

这个类负责检索和处理跨项目定义的蜘蛛类。

可以通过在 SPIDER_LOADER_CLASS 项目设置中指定它们的路径来使用自定义蜘蛛加载器 。他们必须完全实现 scrapy.interfaces.ISpiderLoader 接口以保证无错执行。

信号 API

将接收器的功能连接到信号。

信号可以是任何对象,尽管 Scrapy 带有一些预定义的信号,这些信号记录在信号 部分。

统计收集器 API

scrapy.statscollectors 模块下有几个可用的统计收集器 ,它们都实现了 StatsCollector 类定义的统计收集器 API (它们都继承自)。

更多参考:https://github.com/scrapy/scrapy

本文链接:https://www.24zzc.com/news/169478341534813.html

相关文章推荐

    无相关信息