了解搜索引擎的抓取方式有利于我们建立对搜索引擎友好的网站结构,使搜索引擎蜘蛛能够在我们网站上停留的时间更久,抓取更多的网站页面(即收录数量),为网站关键词排名提供有力支撑。常见的搜索引擎抓取页面的方式有广度优先抓取、深度优先抓取、质量优先抓取、暗网抓取。
广度优先抓取是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后选择其中的一个链接?网页,继续抓取在此网页中链接的所有网页。这是最常用的蜘蛛抓取方式,该方法的优点是可以让网络蜘蛛并行处理,提高其抓取速度。
广度优先抓取是一种按层次横向抓取页面的方式,如图所示,它会从首页开始抓取页面,直至该层页面被抓取完才会进入下一层。所以,当我们在做网站优化的时候,不妨将一些相对重要的信息或栏目在首页优先展示出来(如热门产品、资讯内容等),让搜索引擎优先抓取到网站较为重要的信息。
深度优先抓取是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路。
质量优先抓取般是针对大型网站, 比如新浪、网易、阿里巴巴等类型的网站, 由于它们的信息量庞大,而且本身权重比较高,相对来说更容易为用户提供更有价值的信息。正因如此,搜索引擎会更愿意优先抓取大型网站中的网页,以保障其可以在最短的时间内为用户提供更有价值的信息。
所谓暗网(又称深网、不可见网或隐藏网),是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。搜索引擎爬虫必须依赖页面中的链接关系发现新的页面,但是很多网站的内容是以数据库方式存储的,典型的例子是一些垂直领域网站,如携程旅行网的机票数据,很难使用显式链接指向数据库内的所有机票记录,往往是服务网站提供组合查询界面,只有用户按照需求输入查询之后,才能够获得相关数据。所以,常规的爬虫无法索引这些数据内容,这是暗网的命名由来。
为了能够对暗网数据进行索引,需要研发与常规爬虫机制不同的系统,这类爬虫被称作暗网爬虫。暗网爬虫的目的是将暗网数据从数据库中挖掘出来,并将其加入搜索引擎的索引,这样用户在搜索时更可利用这些数据增加信息覆盖程度。