网页蜘蛛(蜘蛛秘密6566)_蜘蛛技巧

网站的站长或者管理员一般都非常喜欢搜索引擎的“蜘蛛”来访问自己的网站。只有搜索引擎的“蜘蛛”来访文章，抓取网站页面，网站才有在其搜索引擎提升排名的机会。也因此，网站站长和管理员对于搜索引擎的来访是默认或者欢迎的。 但是现在也有一些非法“蜘蛛”，冒充搜索引擎“蜘蛛”在网站里留下垃圾甚至造成“破坏”。 今天介绍下怎么 识别以及阻止这些非法“蜘蛛”。

一、识别“蜘蛛”

在网站的服务器日志文件中，可见每次访问的路径和相应的IP地址。如果是“蜘蛛”来访，则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称，每个搜索引擎都有自己的user-agent，但仅有这个还不足以证明这个“蜘蛛”的合法性，因为很多垃圾制造者可能将他们的“蜘蛛”也命名为Googlebot，以伪装蒙混进入网站，大肆采掘内容。

二、识别阻止非法“蜘蛛 ”

目前，主流搜索引擎都建议网站管理员通过这种方式来辨别真实的“蜘蛛”身份：通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称；用主机名查找IP地址以确认该主机名与IP地址匹配。

1.使用DNS反向查询（Reverse DNS Lookup） ，找出“蜘蛛”IP地址对应的主机名称。

主流搜索引擎的主机名称通常情况下应是这样的：

Google ：主机名称应包含于 googlebot.com 域名中；

百度的“蜘蛛”通常是baidu.com或者baidu.jp的子域名；

MSN ：主机名称应包含于 search.live.com 域名中；

微软bing搜索引擎爬虫是search.msn.com的子域名；

搜狗蜘蛛是crawl.sogou.com的子域名；

Yahoo：主机名称应包含于inktomisearch.com域名中；

2.做一次DNS查询 ，用主机名查找IP地址（Forward DNS Lookup），以确认该主机名与IP地址匹配。由此证明该“蜘蛛”是合法的。

3.如果发现一个“蜘蛛”将自己伪装成合法搜索引擎漫游器，你就可以通过服务器上的设置来阻止这个非法“蜘蛛”。