百度蜘蛛抓取步骤图(百度蜘蛛如何抓取网页)_好文分享

大家好，我是润森

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。（来源：百度百科）

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

robots.txt文件是一个文本文件，使用任何一个常见的文本编辑器，比如Windows系统自带的Notepad，就可以创建和编辑它。robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。（来源：百度百科）

目标：爬取百度的图片，并保存电脑中

首先数据是否公开？能不能下载？

从图中可以看出，百度的图片是完全可以下载，说明了图片可以爬取

首先，明白图片是什么？

有形式的事物，我们看到的，是图画、照片、拓片等的统称。图是技术制图中的基础术语，指用点、线、符号、文字和数字等描绘事物几何特征、形态、位置及大小的一种形式。随着数字采集技术和信号处理理论的发展，越来越多的图片以数字形式存储。

”

然后需要图片在哪里？

图片是在云服务器的数据库中的保存起来的

”

每张图片都有对应的url，通过requests模块来发起请求，在用文件的wb+方式来保存起来

但是有谁为了爬一张图片去写代码，还不如直接去下载。爬虫是目的就是为了达到批量下载的目的，这才是真正的爬虫

”