这两天公司老板让咱去猪八戒,去淘宝找做爬虫的商家,想要给公司官网走一波流量。一开始是前同事介绍的,他让咱去找相关的页面让他评估看看能不能做。老板不满意,让我去猪八戒上看看。我找了几家,一听说我要抓取用户联系方式,直接回绝了,不做。一直听说网络爬虫好像很火,但又有一定的风险,就去网络上找文章看看了。
专业解释咱也不懂,Python 学了半吊子,引入各种类库烦死了,就放一边了。Python 爬虫现在应该是比较火的应用了,但爬虫只是 Python 的一个分支应用,它还可以用来做很多事,比如常用的 web 应用,大数据分析等等。回到爬虫,在这个应用火之前,最早接触的应该是百度的蜘蛛爬虫,取名蜘蛛也比较形象,就是把四面八方的猎物通过“网”拉回到自己的大本营,意指百度蜘蛛通过网络收录来自四面八方的网站和页面信息。
国内自建博客的博主应该都会注册百度站长之家,在页面顶部配置一个被动提交链接的 js 脚本,然后每天到站长后台查看各项数据,里面包括访问量,pv,uv,来源站,关键词,百度索引等等。然后再搞一个主动提交链接的插件,每次上文章都会自动提交到百度,增加被百度收录的几率。
所以一般的搜索引擎都是建立在网络爬虫之上的,可以说,没有爬虫,搜索引擎得饿死。
没什么区别。可能体量上因为搜索引擎是大企业,服务器各方面承载能力强,收录的数据更多,但从抓取数据本质上来说并无区别。只是后续的数据使用有些许不同。我们自己做的爬虫可能更多是为了商用,比如说公司做数据分析,引流用户,或者直接贩卖赚钱;而搜索引擎也会做这些事,只不过表面上给用户的感觉它只是在做收录工作,展示的也是标题,摘录的信息,最后用户流量还会回流到相关的网站。
这就跟转载文章一样,你看人家写的好,就想拿过来做个参考。文明一点的做法是标注这篇文章为转载,并附上原文链接。强盗的做法就是不要脸地说是自己原创的,这样被原作者发现了肯定要生气的,严重点的追究你侵权一点都不过分吧!
以下内容转自 写网络爬虫的法律边界 - 猿人学 Python,再续:网络爬虫的法律边界和数据风险。你看这就是转载声明,不做这个,你就是抄袭,要被告的 →_→ 。
爬虫有什么风险?犯法啊,还是刑法。
《刑法》第 285 条,非法获取计算机信息系统数据罪。
获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,
处三年以下有期徒刑或者拘役,并处或者单处罚金; 最高处七年有期徒刑并处罚金。
好像还是很远的样子,近一点,直接上案例:
有几个禁忌,抓取的数据最好不要直接商用,涉及社交信息/用户信息要谨慎, 老板交代你抓取敏感任务时,让老板先看下刑法第285条。
并且,目前我国法律是偏向数据拥有者的,如果数据拥有着者有证据向法院起诉的话,抓取数据的一方多半会败诉。
有人会说,这是公司领导让做的,我是被迫的。一样,公司处罚金,主管人员和直接责任人依法规定处罚,也就是坐牢。
只要在网上抓取数据都存在风险,为什么百度,谷歌还活的好好的?按照好多碰瓷公司的尿性,百度、谷歌应该早就被告的破产了吧!
有两个原因,一个是搜索引擎的特殊性,它主要目的是收录网站和网址信息,它提供的是一个摘要信息,具体的内容还是呈现在原网站上。通过跳转到原网页,还可以给原网站增加流量,互惠互利的事,大家一般都不会拒绝。即便有想要碰瓷的公司,也不好下嘴。因为搜索引擎只展示摘要信息,具体内容还在原网站上。这其实是打擦边球,你可以说它违规抓了你的信息,但展示内容又不充分,对于百度,谷歌这种体量的公司,没有绝对的证据,人家法务部也不是吃干饭的,拉锯战能打到你吐。
并不是。爬虫作为一种工具,用之正则正。在对一个网站进行数据采集的时候,你要先研究一下网站的知识产权声明。因为这是用户同意的协议,是受到法律保护的。当然这大概率没什么卵用,因为它肯定会把你规定得死死的。但个人学习的时候,谁没尝试过几个主要的网站呢!
然后还要避免踩雷。你个人试试手感、技术,一般公司不会搭理你的。除非做到一定的体量,或者你的行为危害到人家公司的利益了,那人家肯定回过头来把你踩死。
那么,什么样的行为容易踩雷?
总结一句话,个人做点研究,不泄露数据,不商用,基本上没有大问题。