网站收录蜘蛛推广有收益吗安全吗(淘联盟浏览佣金是真的吗)_蜘蛛技巧

这两天公司老板让咱去猪八戒，去淘宝找做爬虫的商家，想要给公司官网走一波流量。一开始是前同事介绍的，他让咱去找相关的页面让他评估看看能不能做。老板不满意，让我去猪八戒上看看。我找了几家，一听说我要抓取用户联系方式，直接回绝了，不做。一直听说网络爬虫好像很火，但又有一定的风险，就去网络上找文章看看了。

专业解释咱也不懂，Python 学了半吊子，引入各种类库烦死了，就放一边了。Python 爬虫现在应该是比较火的应用了，但爬虫只是 Python 的一个分支应用，它还可以用来做很多事，比如常用的 web 应用，大数据分析等等。回到爬虫，在这个应用火之前，最早接触的应该是百度的蜘蛛爬虫，取名蜘蛛也比较形象，就是把四面八方的猎物通过“网”拉回到自己的大本营，意指百度蜘蛛通过网络收录来自四面八方的网站和页面信息。

国内自建博客的博主应该都会注册百度站长之家，在页面顶部配置一个被动提交链接的 js 脚本，然后每天到站长后台查看各项数据，里面包括访问量，pv,uv,来源站，关键词，百度索引等等。然后再搞一个主动提交链接的插件，每次上文章都会自动提交到百度，增加被百度收录的几率。

所以一般的搜索引擎都是建立在网络爬虫之上的，可以说，没有爬虫，搜索引擎得饿死。

没什么区别。可能体量上因为搜索引擎是大企业，服务器各方面承载能力强，收录的数据更多，但从抓取数据本质上来说并无区别。只是后续的数据使用有些许不同。我们自己做的爬虫可能更多是为了商用，比如说公司做数据分析，引流用户，或者直接贩卖赚钱；而搜索引擎也会做这些事，只不过表面上给用户的感觉它只是在做收录工作，展示的也是标题，摘录的信息，最后用户流量还会回流到相关的网站。

这就跟转载文章一样，你看人家写的好，就想拿过来做个参考。文明一点的做法是标注这篇文章为转载，并附上原文链接。强盗的做法就是不要脸地说是自己原创的，这样被原作者发现了肯定要生气的，严重点的追究你侵权一点都不过分吧！

以下内容转自写网络爬虫的法律边界 - 猿人学 Python，再续：网络爬虫的法律边界和数据风险。你看这就是转载声明，不做这个，你就是抄袭，要被告的 →_→ 。

爬虫有什么风险？犯法啊，还是刑法。

《刑法》第 285 条，非法获取计算机信息系统数据罪。

获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，

处三年以下有期徒刑或者拘役，并处或者单处罚金; 最高处七年有期徒刑并处罚金。

好像还是很远的样子，近一点，直接上案例：

有几个禁忌，抓取的数据最好不要直接商用，涉及社交信息/用户信息要谨慎，老板交代你抓取敏感任务时，让老板先看下刑法第285条。

并且，目前我国法律是偏向数据拥有者的，如果数据拥有着者有证据向法院起诉的话，抓取数据的一方多半会败诉。

有人会说，这是公司领导让做的，我是被迫的。一样，公司处罚金，主管人员和直接责任人依法规定处罚，也就是坐牢。

只要在网上抓取数据都存在风险，为什么百度，谷歌还活的好好的？按照好多碰瓷公司的尿性，百度、谷歌应该早就被告的破产了吧！

有两个原因，一个是搜索引擎的特殊性，它主要目的是收录网站和网址信息，它提供的是一个摘要信息，具体的内容还是呈现在原网站上。通过跳转到原网页，还可以给原网站增加流量，互惠互利的事，大家一般都不会拒绝。即便有想要碰瓷的公司，也不好下嘴。因为搜索引擎只展示摘要信息，具体内容还在原网站上。这其实是打擦边球，你可以说它违规抓了你的信息，但展示内容又不充分，对于百度，谷歌这种体量的公司，没有绝对的证据，人家法务部也不是吃干饭的，拉锯战能打到你吐。

并不是。爬虫作为一种工具，用之正则正。在对一个网站进行数据采集的时候，你要先研究一下网站的知识产权声明。因为这是用户同意的协议，是受到法律保护的。当然这大概率没什么卵用，因为它肯定会把你规定得死死的。但个人学习的时候，谁没尝试过几个主要的网站呢！

然后还要避免踩雷。你个人试试手感、技术，一般公司不会搭理你的。除非做到一定的体量，或者你的行为危害到人家公司的利益了，那人家肯定回过头来把你踩死。

那么，什么样的行为容易踩雷？

总结一句话，个人做点研究，不泄露数据，不商用，基本上没有大问题。

本文链接：https://www.24zzc.com/news/169321130125361.html