小编日常的工作就是写写文章,查查网站收录情况。在查看某篇文章收录的时候,偶尔会出现图中情形:搜索文章标题,搜索结果显示的是网站的首页而不是文章页,文章标题最终出现在搜索结果的描述中。而出现这种情况的文章基本有个共同的点:刚发布不久,而且标题曾被调用到首页。
为什么会出现这种情况?那这篇文章到底有没有被收录呢?
首先,这个情况的出现表明首页更新了快照;如果把文章页URL放入搜索框,百度提示“抱歉,没有找到与XXX”,说明文章当时还没被收录,而之所以能在描述中显示出来,说明百度蜘蛛对其进行了抓取,处于审查期还没有被放出来。那文章最终会不会被收录呢?从小编的经验来看,大概率是会的,如果文章的内容还可以,有一定的浏览量,被收录只不过是时间长短的问题。当然,如果网站不是新站,而文章页是长时间以后才被收录的,这就说明从内容质量上,该文章不太被搜索引擎的认可。那么以后工作的重点就要放在内容建设上,把网站基础做好。
其实从上面的文章收录过程,可以看出搜索引擎的工作流程如下:
首先 ,蜘蛛(spider)通过网站首页链接或外链,发现新的URL并抓取;
然后 ,将爬行的页面存入服务器;
再然后 ,对进行页面分析,把这篇文章的内容和自己的数据库进行对比,如果这篇内容在数据库中没有相同的信息或部分内容有价值,那么就会建立索引。
最后, 匹配用户检索内容,通过排名程序调用索引库数据,计算排名显示给用户。
从上面的工作流程中可以得出:
① 搜索引擎在建立索引的过程中,生成了索引量;
② 文章被索引后,通过搜索URL展示出来,就成了我们通常所说的“收录”;
③ 而Site命令查询的就是已经在搜索引擎中展示的内容。据小编分析,Site显示的页面,应该是经过搜索引擎算法过滤而展现给用户的“高质量”页面,比如百度site结果中,展示的链接最多有760个。
一个站点的百度索引量数据常常来自3种方式:百度站长工具的索引量、site的收录量、第三方工具的收录/索引量 ,他们有什么关系呢?
1、百度索引量以百度站长工具的索引量为准。
百度站长工具给出的索引量是这样定义的:索引量指可以被搜索用户搜索到的网站数据库。小编理解的是一个网站的索引量=有多少页面可以作为搜索候选结果,而对应的页面能被用户搜索到,就是俗话说的“放出来”,则需要一定时间的延迟。比如当天site的收录量往往对应的是N天前的百度站长工具的索引量。
所以说,站点真实的百度索引量一般以百度站长平台的索引量为准,而Site收录量可供参考。至于第三方站长平台的数据,主要用来辅助分析索引中页面的引流能力,其收录/索引量结果通常是在站点收录的条数稳定一段时间后才会出现。
2、对于正常的网站来说,百度索引量与site收录量相差不是很大。
如果百度索引量与site查询的收录数,都同步增长,那么恭喜你,这说明网站的权重在逐渐增加。而如果当索引量高于收录量很多的时候就要注意了,如果不是新站,那就说网站因为某些原因被降权了,此时除了做好网站的维护外,更应该持续地增加原创文章的更新,尽量减少低质量内容的转载。如果后续的百度站长平台里面的百度索引呈现持续上升的状态,那么说明你的站点索引正逐步恢复正常,过一段时间这些索引页面会被陆续的放出。
虽然site结果并不准确,但是它能看到哪个页面被收录,并且排名的顺序从一定程度上反映了搜索引擎的“喜好”,用site结果去布局网站的内容,也是靠谱的办法之一。
3、至于第三方站长工具的索引量,常被大多数人用作参考。 相比工具展示的索引量,站长们更多关注的是流量。在流量没有发生巨大变化,而索引量有巨大波动时,不必担心;而如果发现流量发生较大变化,则可以从索引量数据分析原因。