爬虫一事如平地惊雷,震荡了整个金融科技圈的秋天。同盾、魔蝎、新颜、聚信立等等一系列曾经的明星企业接受调查取证,其他涉及爬虫技术的大数据风控公司以及数据源公司也力求自保,纷纷中止爬虫业务。
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取网上信息的程序或脚本。爬虫是网络信息搜集的基础手段,在程序员资深级别当中,做爬虫的程序员属于应届毕业生级别。
百度、谷歌、抢票软件等消费者常用的互联网工具,都是基于爬虫技术。一定程度上可以说,爬虫让技术大规模、高效率替代人类成为可能。而这一波数据公司的震荡,也无法阻挡爬虫技术在广泛的互联网公司、以及金融科技公司当中继续应用。笔者看来,爬虫技术不会停,而客户会在爬虫技术面前自动分层,行业规范也即将迎来。
1.既然爬虫技术如此通用,为什么在金融科技行业中爬虫却变得如此敏感?
首先,行业中使用爬虫技术的范围超出了普通人的接受范围。金融科技公司会爬取多种数据,其中四种数据使用率最高:
前两者属于公开信息,在用户申请借款时,爬虫技术可以迅速在全网收集公开论坛的舆情数据、公示的失信人员数据、司法被执行人数据等公开数据。这些数据通过爬虫技术可以更高效的获得,降低了人工成本、时间成本与操作出错率。
大家所争议的,是运营商数据、人行征信数据等用户私有数据,这些数据价值高、作假难,是很好的评价用户信用的数据来源。当用户申请借款时,借款平台要求用户填写运营商查询码、短信验证码等,从而获得这些数据详情:话单详情、缴费详情、个人版人行征信报告等。
于是当用户授权现金贷公司爬取后,有的公司将这些数据形成缓存,更有甚者将这些缓存成为自己的服务并再次打包出售。而当数据积少成多后,市场上的大数据风控公司则可以省去自己开发爬虫团队的成本,直接从这些公司购买,并再次使用在各个领域。
经常见到的情况就是,一个正常用户一旦通过贷超借贷,其手机就会不断受到其他贷款公司的骚扰。
媒体常称的“爬虫业务”就是这类违法爬虫与数据倒卖业务。
2.允许你查征信,并愿意等待如此长时间的用户是怎样的用户?
要知道,话单详情与征信报告都不是实时能够获取的,常常需要用户回填短信,并等待一段时间供系统查询所有数据,这一体验常常很差,少则5分钟多则半小时,导致申请客户的流失率大增。
可想而知,如果一个用户可以轻松通过信用卡取现,或者在银行就能借到足够的钱,他不会愿意让互联网金融平台多次查询自己征信,也不会愿意交出自己详细话单。因此接受这些不良体验的用户,往往是高风险用户。
而以这类用户为目标客群的现金贷平台、贷超平台,往往也是714高炮。
在司法与公安的打击下,这样不法利用爬虫技术的行为将被严惩。较具规模,或者希望长久发展的公司也将取缔或严格规范爬虫业务。这类以现金贷为幌子,实则高利贷行径的公司将逐渐被取缔。
拥有个人信用意识的客户会进行逆向选择(这类客群势必越来越多),在借贷的同时就会明确感知到平台的合规性,好用户与高风险用户将在好平台与违规平台之间自动分层,倒逼平台越来越规范。
3.但行业的自我净化并非一蹴即就的,在数据获取领域,这三个层面需要法律明文规范。
第一, 平台能够获取用户敏感信息的方式。
聚投诉上常常有类似投诉“催收拨打亲人电话,本人并未知晓”,而实际上,在用户申请阶段的某一步,某一个小字体的协议,点开,里面的某一条款可能就写了类似于“逾期后允许平台向他人催收”的条款。而用户在焦急借款的时候,在这不起眼的、并未展开的协议前点了“√”。
怎样才能获取用户敏感信息?很明显,并不是一个默认勾选就可以的。
用户授权是否需要强授权?怎样的授权才能够让用户足够了解自己行为的代价——强制阅读15秒?回填验证码?主动打字抄写?这些都存在疑问。
第二, 有些数据应当即使在强授权情况下,也不能被爬取。
比如个人版征信报告,银行流水等敏感数据就存在争议,没有明确法律条文可以支持授权下的爬取行为,也没有明令禁止。
第三,获得数据后的二次使用,也会涉及司法问题。
这次查处的倒卖用户隐私是严重的一方面。而较轻者,有的公司为了优化用户体验,在复贷时就不需要用户二次提供某些信息;或许在用户使用公司其他产品,甚至外部合作方产品时,也不用再次填写信息;这类数据的缓存以及二次利用,或许也存在解释空间,需要明确法律条文来规范。
4.近年来互联网金融大事频发,从网贷暴雷,到714贷整顿,再到这次数据隐私安全引起公众关注。看似都是由一个个突发事件为导火索,而其后,是多年前就能够预见到的行业规范路径中的必然一步。
有人说金融行业就是在赚漏洞的钱。笔者看来,这些漏洞可以是不同参与者之间的信息不对称,专业度区别,进入市场先后的区别,但一定不能是法律的漏洞。
明智的企业家知道“有所为有所不为”,有些业务开始的时候,就知道不能长久,短期红线的快钱不该赚。司法会秋后算账。
技术无分好坏,使用者为之。