蜘蛛又称网络爬虫,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定
的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、
模拟程序或者蠕虫。
百度蜘蛛工作原理
蜘蛛是网站与用户之间的信息搬运工,抓取网站内容,通过索引库呈现给用户。
工作流程
索引区出发抓取网页信息,通过临时库处理内容,将部分符合规则的内容带回索引库,不合格的将 会清理掉,最后将合格内容展现给搜索引擎查询结果。
某某网站长所说,通过日志查询到蜘蛛抓取量并不少,但收录却很少。那么也就是说内容是抓取了 ,被蜘蛛带到索引库的内容却很少。
如果一个PC移动适配站点,只想抓取PC端内容是否可以直接robots移动端?
百度蜘蛛分别有PC/移动通吃蜘蛛,也有移动端专属蜘蛛。它们的识别命令都是一样的,也就是说只 要robots百度蜘蛛,那么百度就无法抓取到内容。不管是想robots移动或者PC站点都不能使用 robots百度蜘蛛。会导致百度无法抓取到站点内容。
转载请注明原创文章来自:胡多钱