搜狗蜘蛛在爬虫中的作用(python网络爬虫快速入门)_SEO优化

【资政场】

作者：韩轶（中央民族大学法学院院长、教授）、聂晶（中央民族大学法学院犯罪防控研究中心研究员）

近年来，随着移动互联、人工智能、大数据、云计算等新技术的迅速发展与普及应用，人们的工作、交往和生活方式都发生了深刻变化，数据成为驱动社会发展的新型生产要素、各行各业增强竞争力的重要源泉。但在大数据收集过程中，也存在着各种违法犯罪问题。网络爬虫（WebCrawler）作为一种能快速精准地获取数据信息的基础性网络技术，近年来得到了越来越多的青睐和应用。如何对其进行规制，驱动其向好向善，成为当前重要的法治议题。

“小爬虫”的“大角色”

网络爬虫，又称为“网页蜘蛛”“网络机器人”，是一种按照一定的规则，自动抓取网络信息的程序或者脚本。它能在特定程序的驱动下，模仿人工点击从网站、手机应用、小程序或搜索引擎中检索、提取、存储数据。我们可以形象地将它们理解为一种爬行在网络上的蜘蛛，它们根据程序的指令，通常沿着URL（网址）这根蛛丝，在互联网这张大网上爬来爬去，寻找和带回所需要的数据资源。我们熟知的百度、搜狗、谷歌等搜索引擎，其技术核心元素之一就是“网络爬虫”。例如百度蜘蛛，它通过互联网入口爬取网页，实时存储并更新索引，然后为用户提供检索服务。

自从1993年第一个网络爬虫程序——“互联网漫游者”被开发出来，网络爬虫这种便捷高效的搜索技术便得到了业界关注。特别是随着数据资源的爆炸式增长，网络爬虫的应用场景也变得越发广泛与多元，长期活跃于市场调查、产品研发、金融分析、舆情监控、风险预测等领域。近年来，一些运用爬虫技术为客户提供数据服务的互联网企业，也获得了快速发展。对个人而言，我们可以利用爬虫软件等计算机编程语言，让网络爬虫为自己服务。例如想买到理想的房子，就可爬取房产中介的公开信息，分析房源数据与趋势以辅助决策。

网络的本质与价值在于连接，核心是实现数据的流动与分享。网络爬虫作为数据抓取的技术工具，通过爬行增强了网络节点间的联络，提升了网络的整体价值，是构建互联网开放与共享理念的重要技术基石。但网络爬虫所行之处，并非总是鲜花和掌声，特别是涉及隐私领地和网络安全之时。因此，为了规范爬虫，维护网络秩序，1994年诞生了“robots.txt协议”，该协议虽然只是一个“君子协议”，但它逐渐被视为网络空间爬虫技术应用公认的行业准则，也成为判定爬取行为是否获得网站许可的主要依据。在2014年百度公司诉奇虎360违反robots协议案中，法院在判决时就认为，被告没有遵守原告网站的robots协议，其行为明显不当，应当承担相应的不利后果。

科技异化：“好爬虫”和“坏爬虫”

科技本身是一种中立性工具，向善向恶、合法与非法，关键在于使用者的选择。原本通过robots协议，一方获得了数据与信息，一方增加了流量与关注，皆大欢喜。但robots协议能防“君子”却难防“小人”，有些爬虫程序不遵守规则，随心所欲地爬取别人不愿意分享的数据信息，并大量挤占服务器资源，变成了“网络害虫”。例如近年来一些大数据风控公司利用爬虫技术，在网络上非法收集用户个人信息并转卖给第三方，借以谋取经济利益。

网络爬虫设计的初衷是通过计算机技术，自动为网站编纂索引，更新信息，为用户提供高效的检索服务。具有访问、下载和解析（对数据进行分析与筛选）三种基本功能。目前，爬虫作恶主要是对前两种功能的异化，体现为三类作恶方式。

一是恶意抓取非授权数据。访问数据是“网络爬虫”的行为起点，也是其价值本源，一些企业或个人为了经济利益或其他特殊目的，想方设法让网络爬虫突破道德规则与技术障碍（网站“反爬虫”措施），爬取未经授权或超过授权范围的数据。例如2018年2月至4月间，马某通过编写“爬虫”程序，窃取手机应用及网站的用户信息约20万条，然后通过微信出售给他人，非法获利共计2.4万元，这种行为就构成了侵犯公民个人信息罪。

二是恶意侵犯知识产权。一些网络爬虫在数据爬取过程中，未经版权方的许可，就下载、复制或传播文字、图片和视频等内容，并以此获利。通常形式是，爬虫对具有版权归属的文学或影视作品等设置加框链接，吸引用户点击，然后通过售卖广告等形式牟利。例如段某建立的“窝窝电影”网站，利用爬虫技术对多家视频网站的500余部影视作品设置了加框链接，吸引用户点击播放，并赚取广告费100余万元，这种行为就触犯了著作权法。

三是恶意扰乱系统运行。网络爬虫访问系统时，跟人工点击原理一样，因此当巨量爬虫同时访问某一网站时，就会占用大量的带宽资源，造成服务器不堪重负甚至崩溃。业内专家表示，2019年有近40%的网络流量来自爬虫，其中20%来自恶意爬虫，而且比例还将不断上升。出行行业即是重灾区。以中国铁路“12306网站”为例，自2011年上线运营以来，春运期间多次出现因爬虫（主要是抢票软件）攻击而无法访问的情况。据统计，2018年春运期间，网站最高峰时1天内页面浏览量达813.4亿次，其中近90%是“爬虫”所为。

合理规制，让“爬虫”向善向上

据统计，截至2020年12月，我国网民规模达9.89亿。增强网络空间治理，保障个人信息和数据安全，已成为重大的时代命题。

目前我国对网络爬虫的规制还没有专门的法律法规，主要依靠民法典、反不正当竞争法、著作权法、网络安全法以及刑法中的相关法律条款。但从法律规制效果来看，情况不容乐观。一方面是由于互联网技术的快速发展，以及网络所具有的开放性、虚拟性和流动性等特征，让对违法犯罪行为的监管和证据提取较为困难，特别是随着数据抓取从网页拓展至手机应用程序、小程序等移动端平台，抓取手段就更加复杂与隐蔽；另一方面是网络世界和数字服务发展迅猛，法律法规还具有较大的滞后性，司法实践对网络爬虫技术滥用引发的法律问题缺乏足够的司法经验，而相关的司法解释亦未能予以足够关注，难以形成有效规制。例如2017年今日头条与新浪微博之间因“微头条”业务同步“微博”发言内容的纠纷案例，其实质是数据权属难以确定的问题。但由于缺乏明确的司法解释指引，引发了实践中的普遍争议。

2019年5月，国家互联网信息办公室公布了《数据安全管理办法（征求意见稿）》，该办法专门针对利用网络开展数据收集、存储、传输、处理、使用等活动进行了规制，有望对网络爬虫等技术行为进行有效治理。该办法强调，国家坚持保障数据安全与发展并重，鼓励研发数据安全保护技术，积极推进数据资源开发利用，保障数据依法有序自由流动。这也提醒我们，网络爬虫等本质上是顺应数字经济发展需求而生，既要从法律层面高度重视，也要把握好法律规制的边界，力求达到数据利用与合理规制之间的良性平衡，以便让网络技术更好地服务经济社会与人民生活，助推数字中国建设。

《光明日报》（ 2021年03月20日07版）

来源：光明网-《光明日报》

本文链接：https://www.24zzc.com/news/169366272628121.html