
“大数据时代,人人都在‘裸奔’。”一句无奈的玩笑话,折射出大数据的洪流之下,个人隐私信息被严重盗用、滥用的现实。
公安部最近披露消息:自今年3月公安部部署开展打击整治黑客攻击破坏和网络侵犯公民个人信息犯罪专项行动以来,截至目前,全国共侦破侵犯公民个人信息案件和黑客攻击破坏案件1800余起,抓获犯罪嫌疑人4800余名,查获各类公民个人信息500多亿条。
此类案件三大特点:一是黑客入侵网站非法窃取公民个人信息犯罪活动增多,二是企事业内部人员成为非法泄露个人信息的主要源头,三是侵犯公民个人信息犯罪成为其他各类犯罪的上游犯罪。
近日,备受关注的苹果中国公司内部多名员工买卖个人信息一案,已开庭审理。此案涉及苹果国内直销公司及苹果外包公司员工20多人,利用苹果公司内部系统平台,非法查询苹果手机关联的手机号码、姓名、Apple ID等信息,再将信息以每条10元-180元不等的价格售卖,初步查明涉案金额达5000万元以上。
业内人士透露,这类犯罪团伙往往是倒卖个人信息的“数据黑产”安插进公司内部的。“不过,从整个数据产业来看,‘内鬼’案件还算是个案,更普遍的是整个大数据行业成体系地变相买卖个人信息。这是公开的秘密。”
何谓“数据黑产”,还无官方定义。一般把黑客盗取或直接倒卖个人信息的行为称为“黑产”。时下大数据公司流行的对外提供身份验证、“黑名单”服务等市场化行为,并不属于“黑产”。
但在多位资深律师看来,由于普遍涉及侵犯个人隐私,缺乏规范授权,个人信息交易未经过“脱敏”、明示细化授权,属变相买卖。所以,严格来说,大数据公司的部分数据服务或可称为“灰产”,在这一需求之下,催生了近年庞大的“数据黑产”。
中国的网络数据泄露问题已暴露多年,2011年末曾引起社会广泛注意(详见本刊2012年第2期封面报道“网络大泄密”)。近两年,借着互联网金融、消费金融和大数据风控的风口,各种数据公司大行其道,形成了有供有需的完整产业链。源头可追溯至公安部下属的身份证查询中心、高等教育学生信息网、三大移动通信运营商等,中间环节涉及不规范经营的第三方支付机构、个人征信机构、大数据公司、电商平台、房地产中介等,目前需求方是从事现金贷、消费贷的互联网金融平台、各种消费金融公司甚至也包括商业银行的零售业务部门。
眼下,中国相关监管部门正着手整肃大数据产业链。
2017年6月1日,《网络安全法》正式实施,完善了个人信息保护规则,包括要求明确披露信息用途、适用范围、时效等。作为中国第一部全面规范网络空间安全管理的基础性法律,标志着中国网络空间治理、网络信息传播秩序规范、网络犯罪惩治即将翻开崭新的一页。
同日的另一重拳更为业内关注:《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》(下称“两高”司法解释),对《刑法修正案(九)》(下称“刑九”)第253条作出解释,明晰了侵犯公民个人信息行为的定罪量刑标准,大幅降低入罪门槛,并明确犯罪行为责任主体,不仅仅是公司,公司高管及直接业务负责人等也要承担相应责任。
北京网贷协会数据安全专家韩洪慧说:“现在非法使用和恶意使用个人信息的情况太严重了。《网络安全法》的实施是一个很好的契机,被寄予很高期望,但关键看执法力度和强度。”
按照“两高”司法解释,非法获取、出售个人财产信息超过50条即可入刑。在业内看来,“如果严格执行,几乎所有的大数据公司立马停摆”。“只要深究其数据是怎么来的?是否经过用户明确授权?很多大数据公司都无法回答。”韩洪慧告诉财新记者。
目前,15家大数据公司被列入公安部门调查名单,其中不乏估值超几十亿元者,包括第一家挂牌新三板的大数据企业数据堂,涉及其对理财公司提供大量用户隐私数据。
财新记者从多个渠道获悉,公安部公共信息网络安全监察局正在制定专项治理方案,已将调查名单扩大到30多家,业内知名的大数据公司悉数在此次调查范围之内,不乏已在排队申请IPO计划的公司。
“去年的电信精准诈骗‘徐玉玉案’是此次‘两高’司法解释加速出台的直接推手。眼下各省公安机关都在开展专项整治活动,目前还处于保密侦查阶段。根据过往历史经验,只要有司法解释出台,接着就是大面积的整治清理行动,后续的演变可拭目以待。”前述公安部三所专家对此预计。
今年3月全国“两会”期间,会议副秘书长、发言人傅莹就表示,2017年将对《网络安全法》开展执法检查,重点检查非法向他人提供个人信息和网络欺诈现象。
7月27日,中央网信办、工信部、公安部、国家标准委四部门联合启动个人信息保护隐私条款专项工作,首批将对微信、淘宝等十款网络产品和服务的隐私条款开展评审,重点包括明确告知收集的个人信息及收集方式等。
“眼下个人信息泄露严重,大家已经苦不堪言。大数据公司不能一味为了发展,牺牲个人消费者的信息安全。”中国公安大学一位教授如是解读。
封面报道·整肃数据产业链】上篇:大数据生态圈
大数据风控风起
大数据风控公司的兴起,始于2013年互联网金融的火爆。
尤其近来网贷平台、消费金融机构在线获客需求暴增,并倒逼传统银行转型,更多借助互联网拓展零售客户。自去年以来,互联网银行、网贷平台多靠大数据风控做既不需抵押也没有贷款用途限制的现金贷,迅速做大规模, 由此催生了基于大数据应用的线上精准获客和风控体系。“当银行下沉客户服务重心时,遇到很大的问题就是网上发信用卡时,很多客户没有央行的征信报告,即信用白户,主要是85后、90后和三四线城市的人,导致传统的银行评估方法无法评估这类客户。”百融金融信息服务股份有限公司(下称百融)CEO张韶峰向财新记者介绍。
大数据风控公司应运而生。百融、同盾科技、集奥聚合、聚信立、量化派等都是业内风头较劲的大数据公司,颇受资本追捧,均在谋求IPO。财新记者获悉,同盾近期将迎来C轮投资,投资人包括一家知名风投和一家大型国企。
据业内人士介绍,大数据风控服务,主要包括利用大数据+AI的应用防范两类风险:欺诈风险和信用风险。防范欺诈风险包括三种:识别“黑、灰、白名单”(分别对应恶意赖账、非主观因素比如经济困难造成逾期、信用状况好三类用户)、伪冒骗贷、集合骗贷如医美分期骗贷。防范信用风险则是依托大数据精准营销的刻画图像,比如受教育程度、行为偏好、工作是否稳定等,综合预测个人还款能力。
点融网数据负责人单忆南曾撰文介绍如何利用大数据和人工智能用于风控:“搜集更多维度的数据来更精细地进行用户画像,包括利用一些行业数据、用户的互联网浏览数据、司法执行数据、第三方信用数据、出行数据、电商平台的交易数据、电话通讯数据和社交数据。AI就是对这些数据进行组合,从而挖掘出有效的特征。”
单忆南提到的数据搜集范围,基本也是所有大数据风控公司的标配。这些数据大多是非结构化的数据,即大数据,可能来自邮件、视频、文本、语音、点击浏览行为、社交网络等多种渠道;而银行和征信机构搜集的数据通常叫结构化数据,主要围绕资金借贷偿付行为。
“大数据公司除了可以帮助银行获客,其提供的客户画像也起到完善银行的客户信息、丰富数据维度的辅助风控作用。”多位银行信用卡部人士告诉财新记者,“的确能增加放贷规模和精准度,但水平参差不齐。”
百融的数据使用方主要以银行为主,“七成的银行都在用我们的大数据做风控,共有160多家。”张韶峰介绍。
财新记者从其他渠道拿到的一份百融产品介绍显示,招行自2014年开始在三四线城市以及在线发行信用卡,使用百融评分模型后,获客通过率从14%提升到42%。
另一家行业龙头同盾科技创立于2013年,定位是互联网金融领域风险控制和反欺诈服务供应商。不到四年时间客户量从0做到超过6000家,被业内称为“同盾神话”。
与百融不同,同盾的数据使用方90%是新兴互联网金融公司,包括上千家网贷公司及消费金融公司。同盾科技副总裁顾威接受财新记者采访时介绍,新金融平台比如捷信、挖财、乐信等都是同盾大客户;银行客户包括几个大行和招行、中信、浦发等。
一位工行信用卡部人士告诉财新记者,很多小银行已经放弃了自身风控能力的建设,完全依赖于外部大数据公司。张韶峰亦证实此言。“最早银行和百融合作,百融只是作为辅助,银行先去查央行征信系统、公安部身份查询系统,如果不能判断再找我们;但后来百融变成第一个被银行查询的数据系统。”
据同盾方面透露,目前同盾的黑名单库中,已经积累了3000万条。这相当于全国人口的2%到3%;最大的八家股份制银行的信用卡中心十几年积累的信用卡黑名单,合计也不过是300多万条。
北京网贷协会数据安全专家韩洪慧指出,当前的反欺诈主要都是以黑名单为基础,一种是基于场景积累的数据分析,比如京东和阿里基于电商的生态圈积累的数据;另一种方式是研究分析黑名单上人员的行为特征,提炼模型,据此判定其他具有类似行为特征的人的黑名单程度。
6月中旬,同盾对外宣布API的日调用量已超1亿次,峰值突破1.2亿次。据顾威介绍,大部分是非金融客户的反欺诈服务,比如支付环节盗刷卡防护等;信贷类服务客户的日查询量是500万人次。
同盾成立不到四年,对比官方最大的两家个人信息数据库、已成立十几年的公安部旗下身份证查询中心和央行征信中心,前者日查询量600万-800万次,略多于同盾;后者个人信用报告日查询量是250万次,仅为同盾查询量的一半。
“目前市场上凡是号称积累几千万条黑名单的,最大的疑点是海量数据来源不明,且涉及很多个人敏感数据。”算话征信CEO蒋庆军告诉财新记者。“比如大数据公司在研究分析黑名单时,会搜集分析黑名单上的个人行踪、轨迹、IP地址等。”韩洪慧指出。
大数据公司的数据来源大都语焉不详,但是对消费金融、各种精准营销又显得不可或缺。“我们团队一天到晚讨论这些数据到底用不用。互联网金融平台都在用,如果银行不用,也是不公平竞争;但如果用,又怕助长违法行为。”一位股份制银行信用卡部门负责人不无纠结。
海量数据何来
一般数据来源主要有两个:自身平台产生(如电商平台),或从其他渠道获得信息。“前者需被采集人明确同意,后者风险更多。”互金法律专家肖飒撰文表示。
大数据风控公司一般并无电商平台,也未获从政府部门渠道查询的授权,“往往是一张U盘起家,短短几年间疯长为野生的金融科技公司或金融信息服务商。数据要么是‘爬’(爬取)出来的,要么各种渠道购买的,即便数据源得到了用户授权,但是如从非法渠道接入,也是违规的。”前述股份制银行信用卡部门负责人告诉财新记者。
据业内人士介绍,大数据公司主要有几类:一种是纯平台,只要有数据就接入,对外提供查询服务。比如,融360天机、国政通科技股份有限公司(下称国政通)、鹏元征信是比较大的,数据堂规模相对小,类似小公司有上百家。另一类是通过技术手段收集数据,典型的有同盾、百融、聚信立、量化派等。因为有技术门槛,这类机构数量不多,数据搜集手段包括爬取、买入、交换、撞库等。“各种大数据技术被发挥得淋漓尽致,也可能更没底线。”业内人士说。
这两类公司都对外提供个人信息验证的查询服务。“虽然不一定属于直接倒卖个人信息的‘黑产’,但提供比对查询服务,涉嫌变相买卖个人信息。”一位律师表示。
从财新记者拿到的多家大数据公司报价单看,数据来源的合规性普遍存疑。比如从融360的天机数据服务平台报价表可以看出,数据源包括天翼征信、考拉征信、数尊、通付盾、有盾、亿微、通护盾、中智诚、银联智策、91征信、法海网、汇法网等,其中只有中智诚属于央行征信局授权可以接入公安部身份查询中心的机构,其他提供身份验证的信息源都不合规。
此外,天机数据的价目表里有大量关于社保、公积金及京东淘宝交易记录、车辆违章查询等信息。业内人士介绍,中国目前并没有车辆违章信息查询的对外有偿服务。
天机数据值得关注的一个数据源是银联智策,提供银行卡号对外验证服务,银联智策是中国银联的子公司。据业内人士透露,中国银联的另一个子公司银联智惠也提供银行卡号对外验证服务。
公开资料显示,2012年中国银联设立了银联智策和银联智惠两家子公司。其中,银联智策是以大数据分析能力为核心竞争力的金融科技公司;银联智惠则依托中国银联在全国及海外的实时银行卡交易数据,整合来自银行、运营商、互联网、机构团体的数据。
按照央行有关卡组织的规定,中国银联只是清算通道,不允许留存客户信息。“银联只能看到每笔交易,并不能对应到人,这个信息应该在银行那里。”一位银联人士表示,对前述两家公司的具体业务并不知情。
同盾的产品说明书显示,其拥有亿级电商风险名单、公安法院、移动运营商的数据,但并未披露这些敏感数据来源是否经过合规授权。
业内资深人士称,大部分此类数据是通过提供数据“黑产”服务的小公司买入。2016年5月曾曝出一家新兴科技公司通付盾起诉同盾通过不正当手段剽窃通付盾“设备指纹”技术。
“这个圈里经常会有‘斯诺登’相互揭底,把一些大公司不体面的做法曝光,大多是竞争对手所为,但也暴露了问题。”一位业内人士称。
“大数据本来是一种新的技术手段,被用于无底线攫取数据,是很悲哀的事。”一位个人征信公司人士表示,“表面上这些大数据公司是技术提供商,但这类机构却成为助长‘黑产’‘灰产’的重要动力。”
同盾的反欺诈数据库可以迅速回馈客户结果,响应的速度最少是200毫秒。“毫秒级响应”是多家大数据公司的主打营销优势。百融的资料亦显示,其数据库具有“毫秒级响应”能力。
韩洪慧认为:“对于一个新用户的行为判断,是临时采集还是提前采集的?很明显,临时采集来不及也不全面,那么提前采集经过用户授权了吗?”
按照《征信业管理条例》,消费者授权给信贷机构,可以把客户数据提供给央行授权的征信机构。“如果信贷机构将数据给这些大数据公司使用和分析,这些信贷机构本身也是违规的。”韩洪慧表示。
数美的报价单显示,其逾期黑名单数据来源是“黑产”中介,这显示其数据来源违法。另外还有信息分析服务,输入手机号和短信文本,就可得到该手机号多平台借贷逾期黑名单等全部产品信息。
同盾数据积累速度之快,令业内咂舌。同盾人士曾表示这是通过交换数据积累而来。但根据最新“两高”司法解释第四条规定,通过购买、收受、交换等方式获取公民个人信息,都属于非法获取公民个人信息。
“需要强调,数据的获取,必须要在合规的法律框架下获得授权。”一位业内人士表示。
“爬取”产业链
百融和同盾等多数大数据公司,都可以提供借款人“失联人修复”服务,即帮助放贷机构或催收公司查找失联贷款人的亲属、家人、同事等。“这类个人信息通常是来自买卖或者爬取通讯录。”业内人士介绍。
据业内人士介绍,网络数据获取方式有两种,一种是爬虫技术,分为授权类爬虫和公开类爬虫。后者只能爬取各网站公开发布的数据,比如爬取工商局网站数据是不需要账号密码的,但是爬取唯品会等电商平台就需要申请者的账号密码,这种就要授权爬取。
另一种技术是嵌入某种代码的软件开发工具SDK(Software Development Kit),以往用于网页,现在很多用于手机App。“SDK一旦嵌入,如果你注册登录了这个App,并默认授权,所有的行为数据都能记录,它会在神不知鬼不觉的时候爬取手机通讯详单、聊天记录、银行账号的密码口令、短信、通讯录、行动范围、位置信息等。”韩洪慧介绍,SDK比爬虫读取的数据更全,不公开数据和公开数据都可用SDK,造成的结果就是数据常常会被滥采或滥用。
此前曾有曝光支付宝会定期传送数据到服务端,用的就是SDK技术。按照最新的“两高”司法解释,如果这些信息用于该平台用户优化体验和服务是被允许的,但是如果和第三方共享,都是违法的。
一些大数据公司还会专门向一些小公司出租“爬虫技术”或定制化爬取,比如融360天机、拍拍贷、聚信立、量化派等。
聚信立的一位客服经理告诉财新记者,该公司可以提供定制化抓取服务,比如定制爬唯品会、苏宁易购、饿了么等电商平台。这位客服经理表示,该公司有定制化爬虫的专门部门,有专门的产品经理评估客户需求,“第一就是看能不能实现;第二是根据业务量看报价多少;第三,有一些后续的处理,比如服务器用哪种对接方式等。
财新记者以现金贷公司的身份,从融360天机官网所公布的客服咨询电话了解到,该公司可免费向客户提供“爬虫”出租服务,可以爬取现金贷公司用户的账号、支付宝、电商、运营商、邮箱、网银等信息,“凡是在P2P公司登记的信息都可以爬到”。该公司目前提供身份验证、“活体识别”、反欺诈、爬虫等一系列数据服务。
接电话的一位该公司负责人指出,现金贷公司可直接从API接口接入,身份验证单条价格在0.3元左右,“活体识别”——即身份证登记照片与本人比对——的报价为单条几分钱,但他强调,融360天机所提供的数据为实时数据,区别于“业内一些报价极低的存量数据”。
融360天机的上述负责人表示,所有信息收集“只有在用户授权之后才可以”,并保证所爬信息不会分享给其他客户。
对此,业内的常见说法是“授权爬取”。同盾提供的产品资料显示,信贷风控服务之一就是授权爬取。据同盾人士介绍,授权爬取就是贷款平台要求贷款申请人授权把其手机运营商的账户名和密码告诉该贷款平台,该平台公司再转授权给大数据公司,后者用爬虫技术去网站爬这个申请人的信息。“授权爬取多用于现金贷业务。”前述人士说。
据业内人士介绍,这类通过爬虫出租爬完的信息,提供出租服务的数据公司大部分都会留下一份备份。
在数据爬取中,关键点是是否明示授权。几乎所有手机App都有“读取已安装应用列表” 和“读取本机识别码”(手机网卡地址,MAC)的权限,比如一个手电筒App,其用户授权合同显示,读取其位置、通讯录、照片、打电话和发短信的权限等。这都是通过概括性授权、模糊授权。
“在个人信息领域,中国法律制度规定的概括性授权范围是非常狭窄的,不存在授权爬取的说法。”一位互联网金融法律专家对此解释称。
前述中国公安大学法学教授也认为,无论是爬取公开信息,比如法院公布的“老赖”名单,还是授权爬取,都要获得本人合法授权,即明示、细化的授权,不能概括性授权,否则都是超范围收集个人信息。
据业内人士介绍,相对而言,苹果手机的iOS封闭系统、植入爬取软件较难,开放的安卓系统手机安全防护较弱。而中国80%以上的手机用户都是安卓系统,当用户随意下载了App,尤其是现金贷等消费金融贷款类App,“个人信息怎么丢的都不知道”。
“大数据产业发展太快了,又受到自上而下的政策鼓励,在个人信息保护法不完善的现状下,这些政策反而成了庇护伞。”业内人士认为。
封面报道·整肃数据产业链】中篇:信息泄露溯源
源头一:政府部门代理商
无论是在线获客还是风险防范,第一步都是线上身份验证。这是开展所有金融服务的起点。
“身份信息和手机号是查询量和需求最大的。”业内人士介绍。90%的个人信息都在国家部门,个人身份信息对外输出的官方渠道通常有三个,分别由三个不同部门管理:一是公安部下属的全国公民身份证号码查询中心(下称身份证查询中心),行话称提供“二要素”验证,即姓名和身份证号码相对应;二是电信实名制下,来自三大移动通信运营商的手机号码和姓名、身份证号对应,即“移动三要素”验证;三是来自银行的银行卡和姓名、身份证号、手机号对应,业内称为“四要素”验证,即银行的KYC(了解你的客户)实名制,这是开立I类银行账户必须具备的。
“当一些国家机关或部门对外开放接口级的批量查询业务,从技术上操作,其他人从其许可的查询机构那里‘撞库’,就很容易可以获得信息。‘撞库’是门槛很低的技术,黑客还可以利用部分互联网用户‘多家网站同一个用户名和密码’的习惯,去试探别的网站数据库。” 美国三大征信机构之一益博睿中国的一位高管表示。
以身份证查询中心为例。据多位业内人士介绍,身份证查询中心是事业单位,对外正式授权身份核验服务的有八家代理商,业内号称“八大金刚”——国政通、证通公司、上海爰金、北京英泰、上海骏聿、中胜信用,江苏法华、宇信易诚。除了证通公司由证监会监管,其他七家不受金融监管。
但是在身份证查询中心的网站上,看不到任何对前述八家代理商的公示信息和相关代理制度。身份证查询中心一位部门负责人告诉财新记者,“查询中心没有代理商的说法,但是有合作伙伴或合作机构,有各种不同的合作模式,对合作伙伴有统一的标准和条件,《网络安全法》和‘两高’司法解释出台之后,正在对这些标准进行完善。”
“身份证查询中心应有一个合法授权合作机构的公示名单,让大家知道从哪里查询是合法的。否则任何对外提供个人身份信息查询服务的机构,都可以对外宣称经过了公安部门的授权。”一位接近查询中心的知情人士向财新记者透露,大量第三方支付公司都在对外提供接口级的身份查询服务,但均非查询中心正式授权的代理商。
据他介绍,2016年查询中心一套带人像照片比对的查询量共约26亿次,平均日查询量几百万人次;而在2012年,年查询量还不到10亿次。近年查询量激增,主要是得益于大量消费金融需求。他举例说,有些名不见经传、业务量非常小的第三方支付机构,查询量非常巨大。比如被九鼎集团旗下公司收购的第三方支付机构鹰皇金佰仕网络技术有限公司,2015年才接入身份证查询中心,但此后一年多查询量就达1亿余次/年,也就是说每个月的查询量是千万次级别,远远超过占支付市场份额90%的两大巨头支付宝和微信支付约5000多万次/年的查询量,是支付宝和微信支付的2倍。
他还透露,易宝支付、汇付天下、京东旗下网银在线、拉卡拉的查询量也要远远高于其支付业务的市场地位。“这几家支付机构的月查询量基本上都在百万量级。这相当于一家大型银行每个月信用卡申请的查询量。如果仅仅就支付业务本身的开户需求而言,每个月10万次查询量已经足够了。”那么,这些第三方支付机构在替谁查询身份信息?
身份证查询中心的查询费用并不低,根据用户每年承诺查询的总量,查询中心打包定价,年批发价格一般会在几百万元到上千万元。
相较于身份证查询中心,高等教育学生信息网只有两家代理机构,即鹏元征信和国政通,这两家的系统可以直联该网。不过,高教学生信息网也没有公示。据业内人士介绍,高教部门的学历信息,属于比较过硬的个人身份验证信息,因为全中国有高等教育学历的人只占百分之十几,这部分人的生活稳定程度、收入程度都相对较高,也是营销的主要客户群。
源头二:三大运营商
财新记者从各个渠道拿到的多家大数据公司的身份核验报价单显示,三大移动运营商亦是个人信息泄露的来源,输出的信息除了“移动三要素”,还包括来自手机短信的银行卡消费和交易信息。
业内人士介绍,中国移动旗下的试金石信用服务有限公司(下称试金石)、中移在线,中国电信旗下的天翼征信、号码百事通,中国联通旗下的联通宽带等,几乎都可以对外提供手机话费缴存状态、手机在网状态、地理位置、在网时长等信息查询。“这几家和我们都曾签订业务合同。”一位个人征信公司人士透露。
据知情人士透露,中国移动授权的惟一批量查询API接口服务提供商是试金石。该公司由中国移动联手招商局共同成立于2016年7月,注册资金3亿元。
中国移动下属全资子公司中移在线也对外提供接口服务。“授权满大街都是。近期中移在线暂停了‘移动三要素’的接口服务,接口断了,一些消费金融公司的数据来源就没了。”一位业内人士透露。
此外,中国电信2014年12月成立天翼征信有限公司,其官网显示,天翼征信不仅有中国电信海量的通信、上网信息,还拥有其子公司第三方支付平台翼支付金融业务的经验优势和近2亿用户支付交易信息,以及大量的第三方合作机构数据。
相较于从大数据公司客服很容易拿到报价清单,业内人士透露,这些“运营商系”公司几乎不提供任何公开的报价清单,多以熟人引荐和同业推荐的方式合作,“最近更谨慎了,价格只会在签署的协议中体现。服务报价贵极了,完全是垄断暴利。其中联通和电信相对便宜,按照使用量对应阶梯价格,基础的身份信息与电话号码匹配验证服务(“移动三要素”)大概在每次五六毛钱到八九毛钱之间,而中国移动的报价要贵出50%左右”。
“一家中型的互联网金融机构,如果每天有1万次查询,仅‘三要素’验证就要花费1万多元,一年的成本就要400万元,有几家公司能承受这样的价格?大家就都去找‘黑产’买了。”一位个人征信公司人士表示。
大数据公司集奥聚合能提供包括“移动三要素”在内的手机用户个人敏感信息。财新记者拿到一份集奥聚合给客户的运营商数据报价单,包括来自三家运营商的“移动三要素”验证、手机话费缴存状态、手机在网状态、地理位置、在网时长、月欠费总额查询、常用联系人验证等敏感信息核验。
近年来,三大运营商面临微信等威胁,短信服务、通话时长总量大幅下降,亟待转型。运营商依托海量用户,成立大数据征信公司、与业界拓展合作范围,实现大数据价值变现,是运营商向“互联网+”转型的新尝试。
业内人士透露,三大运营商中,中国联通的大数据业务最激进。“去年联通集团主业利润可怜,把增值利润的压力都放到大数据增值服务上。”2016年,中国联通净利润6.3亿元,较上年的105.6亿元暴跌94.1%。
今年5月,中国联通副总经理姜正新在公开场合表示,中国联通高度重视大数据的发展,把大数据纳入集团的重要战略性业务,将在原来的大数据中心和智慧足迹公司基础上,成立专业的大数据公司,并考虑引入外部资本,或引入BAT作为股东。5月,中国联通已分别在浙江、广东与腾讯、阿里设立合作运营中心。
但根据工信部2013年颁布的《电信和互联网用户个人信息保护规定》,未经用户同意,电信业务经营者、互联网信息服务提供者不得收集、使用用户个人信息。不得收集其提供服务所必需以外的用户个人信息,并不得将信息用于对外服务。
这意味着,布局征信业务的移动运营商也都面临合规考验。
手机金融短信泄露
三大运营商除了通过旗下公司对外输出“移动三要素”,还通过短信群发代理服务商,输出大量个人银行账户信息。
去年以来,财新记者陆续接到至少三家个人征信公司爆料,称联动优势科技有限公司(下称联动优势)提供的数据令人惊讶,“详尽到不敢用”。
财新记者获得联动优势的产品清单目录包括:个人开卡银行张数、借记卡张数、信用卡卡龄、账龄,近三个月到一年的账动笔数、出入账总金额,银行卡消费总额(包括线上消费)、当前余额、手机号入网年限、手机号是否实名等。百融金服的产品清单之一亦显示银行卡月度收支数据。
业内人士分析,这些数据都来自对银行发给个人的短信详单的分析。对于网贷平台而言,这类信息是评估放贷最有价值的数据,属于敏感的个人隐私信息。“这个数据是银行的,银行是不会往外吐的,因为违法。手机短信属于敏感的个人隐私信息,运营商也不得对外提供。”
那么数据来自哪里呢?
联动优势成立于2003年,由中国移动和中国银联发起成立,两者各占联动优势20%的股份。联动优势是国内最大的短信群发服务代理商,代理银行短信群发,即“银信通”服务(银行信息通知系统),中国移动为银行业量身打造。联动优势是百融的股东之一。
业内人士介绍,联动优势相当于是银行和中国移动之间的服务商,从中国移动拿到了短信发送的批发价格。
该公司的外宣资料称,“联动优势是全球最大的金融信息服务提供商”。联动优势金融信息服务事业部负责人张戈向财新记者介绍,公司运营的“银信通”业务2016年短信发送量1100多亿条,其客户涵盖了银行、基金、证券、保险等行业;银行业主要包含大部分国有银行、21家全国性商业银行和部分城商行,“在中国移动的短信代理商中占据最大的市场份额”。
实际上,联动优势不仅能提供中国移动的相关短信群发数据,在财新记者拿到的一份联动优势的移动金融数据中,包含有电信和联通的输出字段。
业内人士认为,联动优势之所以能拿到三家运营商的短信数据,与其关联公司北京创世漫道科技有限公司(下称创世漫道)有关。2016年7月,联动优势被上市公司海立美达收购,海立美达的董事吴鹰为创世漫道董事长。
创世漫道成立于2009年,为企业提供三家运营商的短信群发服务,有十余万家客户,包括政府机构、互联网、商业企业、金融保险、银行、物流等。公开资料显示,有“小灵通之父”称号的吴鹰及其掌控的PE,持有创世漫道大部分股权。目前中国移动、银联子公司银联商务分别为海立美达的第六、第三大股东。
2017年4月7日,海立美达发布公告,称创世漫道与联动优势发生的日常交易自2017年3月31日起构成关联交易。
公告称,联动优势主要服务于金融行业等大型机构,创世漫道主要服务于中小客户群体;联动优势与中国移动有深入而紧密的合作,创世漫道是三家运营商三网融合;联动优势与创世漫道合作,能实现优势互补,有效规避客户流失风险。
与其有业务往来的人士认为,“联动优势将这些数据加工之后,将金融有关的信息,比如银行发给客户的交易信息,卖给金融行业有风控需求的公司,以及贷款催收部门。这存在巨大的个人信息泄露风险。”
多位大数据公司人士向财新记者透露,近期联动优势已暂停对外数据业务。联动优势人士对此否认,并向财新记者称“最近时期比较敏感,不太方便接受有关数据业务的采访”。
业内人士认为,联动优势、集奥聚合的数据业务,暴露出移动运营商对其代理服务商的一系列管理漏洞。在中国的个人数据法缺位、移动运营商对自身运营体系管理不善的现状下,与大数据公司、银行、企业等的合作,可能加剧个人信息泄露的灾难。
哪家不违规留存?
无论是授权代理机构,还是未经授权的第三方支付机构,只要接入官方数据系统,都存在违规截留个人信息的现象。
前述接近身份证查询中心知情人士介绍,身份证查询中心对所有合作伙伴都要求不能留存数据、不能二次应用,但所有合作伙伴都留存了,而查询中心并没有技术手段去检查。
成立于2001年的国政通,定位于“中国数据服务运营商”,成立初期主要负责建设运营中央政府门户网站,2004年开始转向作防欺诈服务,整合公民身份信息、教育学历信息、工商企业信息等权威数据资源,建立防欺诈服务平台。据前述知情人士介绍,国政通2004年开始与身份证查询中心合作,彼时的契机是身份证查询中心处于求发展阶段,打算对公民提供身份验证查询服务,但没有一个对外渠道,因为查询中心是事业单位不是企业,不可能取得ICP(网络内容服务商)牌照。
国政通成为查询中心最早的合作机构。最初是作为查询中心的短信服务提供商,为申请查询的个人发短信;2007年左右,国政通和查询中心签定六年的深入战略合作协议,并给查询中心支付了一笔预付费,买断未来几年的结算,相当于每年给查询中心支付上千万元的服务费;2012年国政通和查询中心谈了超低结算价格,批量查询0.1元/次,远低于其他代理商和对外零售查询,几乎是“躺着赚钱”。
财新记者了解到,通常根据查询信息的不同,身份证查询中心对外零售查询的价格是1元至5元/次不等,其他代理商的批量查询价格根据业务量0.4元到0.5元/次不等,甚至更高。
“国政通得到制度红利,因为介入数据产业比较早。”前述人士评价道,在与查询中心合作的12年中,国政通积累的公民身份数据约有9亿人,包括姓名、身份证号,而且大部分含身份证官方照片,“相当于‘第二个身份证查询中心’”。
国政通官网显示,可以对外提供WEB、API(调用接口)、SDK等多种灵活的系统对接方式。
国政通一位客服向财新记者介绍,除了姓名、身份证号码、人像比对,还可以查询学历、银行卡、手机号、公安部门的不良记录等信息,单次查询价格1元/次上下,批量查询根据查询量优惠程度不同。“每个数据渠道一个API接口,根据不同行业接入门槛不同,持牌机构和不持牌机构的查询价格也不同。”API接口服务是比较快的实时对接方式,业内比较普遍,根据查询量包年价在几万元到几十万元、甚至几千万元不等。
从多家大数据公司的官网看,网站上通常不会有具体的产品内容,都强调大数据、云计算、人工智能,也都对外提供API接口服务。一旦向客服人员咨询服务,大多就会发来各类个人身份信息查询价格单。
“《网络安全法》出台前,每周都能收到好几家大数据公司给我们的报价单,因为他们觉得征信公司应该是这类数据的主要需求者之一。”一位个人征信公司内部人士告诉财新记者。
据前述接近查询中心的知情人士介绍,第三方支付机构及其他持牌机构,都可以在查询中心核实身份信息。查询中心通常返还“是”或“不是”的比对结果,比对要素包括姓名、身份证号码,以及官方身份证人像照片。“但是所有支付机构比对之后都会违规留存这些信息,包括官方身份证人像照片。”
目前持牌第三方支付机构有200多家,良莠不齐。此前央行副行长范一飞曾在公开场合表示,目前互联网支付行业存在的两个突出问题,其中之一就是消费者的个人隐私,特别是关于支付的敏感信息被泄露,甚至一些信息公开在网上买卖。
“第三方支付机构在查询中心的需求,主要是在个人开设支付账户时,除了姓名和身份证号,可以从查询中心拿到带照片身份证信息进行比对,所以留在第三方支付公司的照片还是挺多的。支付机构都可以拿来做二次应用或者和其他人像服务厂商合作。”前述知情人士称。
目前提供人像比对服务的金融科技公司包括第三方支付公司可能有上千家,但没有一家是身份证查询中心的代理商。“业内三大人脸识别科技公司比如face++等,均不具备查询资格,那么其数据库的人脸照片来自哪里呢?”前述接近查询中心的人士说,如果按照最新的“两高”司法解释,这些人脸识别公司购买个人信息的渠道可能是不合规的,甚至违法的。
在业内人士看来,过去银行、运营商曾经历过监管对个人信息泄露的治理,即便有信息泄露案件,多是个案,“只是舀了一瓢水”,无法催生如此庞大的数据产业。而如今代理机构、互联网平台、第三方支付机构等通过API接口模式对外输出 “等于挖了个渠”,亟待系统的制度加以规范。
在前述人士看来,身份证查询中心、高教学生信息网、三大移动通信运营商等对外输出公民身份信息相关服务的机构,都对数据源的管理没有统一的标准。如果提供接口级的对外服务,很难控制个人信息安全保护,“既不是执法部门也不是专业技术机构,怎么监管这些机构?尤其是对接入机构并没有严格的资质审核,也没有技术手段判断这些数据会流向哪里。”
【封面报道·整肃数据产业链】下篇:整肃开始了
量刑升级
6月1日起实施的《网络安全法》和“两高”司法解释,将对数据行业现行做法产生巨大冲击。若按照“两高”司法解释的较低入罪门槛,大多数大数据公司都违法。“这次史无前例,所有的大数据公司都很关注。”前述公安大学教授表示。
早在2013年2月,涉及个人信息的处理已有法可依——工信部联合多家单位制定的《信息安全技术公共及商用服务信息系统个人信息保护指南》(下称《指南》),成为中国首个个人信息保护标准。
《指南》明确将个人信息分为个人一般信息和个人敏感信息(包括身份证号码、手机号码、种族、政治观点、宗教信仰、基因、指纹等),并提出默许同意和明示同意的概念。对于个人一般信息,默许同意便可收集和利用;对于个人敏感信息,则需明示同意;而且在达成个人信息使用目的之后必须删除。但由于《指南》属于指导性文件,并未强制执行。
此次“两高”司法解释第五条对“公民个人信息”作了进一步区分:行踪轨迹信息、通信内容、征信信息、财产信息为重要信息,住宿信息、通信记录、健康生理信息、交易信息等为敏感信息;并首次明确了公民个人“财产信息”属于最严格保护的范畴,而且指出财产信息既包括传统银行账户,也包括第三方支付结算账户。
《网络安全法》还加强了对网络运营商在收集和使用个人信息之前需获得其客户同意的要求,包括要求明确披露信息用途、适用范围、时效等,并采取措施确保个人信息安全。
“过去一次性搜集个人的所有信息、无限制地使用,只是让用户在App上的授权协议里打个勾就默许了,此后必须明示用途和适用范围,这对业内影响比较大。”公安大学的一位教授告诉财新记者。
“两高”司法解释最具杀伤力的是,明确规定了“情节严重”认定标准的十种情形:包括违法所得5000元以上;非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息50条以上;非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息500条以上;非法获取、出售或者提供以上两项规定以外的公民个人信息5000条以上;将在履行职责或者提供服务过程中获得的公民个人信息出售或者提供给他人,数量或者数额达到前述几项规定标准一半以上等。
一位资深律师分析,从“两高”司法解释来看,适用范围已扩大,把以前模糊的、不太确定是否构成犯罪或治安管理处罚、民事责任的行为,划了很低门槛,“搜集通讯录、搜集电商平台如京东或淘宝的交易信息达500条就入刑,门槛很低。”
“两高”司法解释对于“情节特别严重”的量刑标准是,数量数额达到“情节严重”前述几项标准的10倍以上。“门槛也是特别低。5万条以上的信息非法获取,对很多互金平台可能只是一天的业务量。”前述律师说。
最高法研究室主任颜茂昆认为,量刑升级,是因为个人的行踪轨迹信息、通信内容、征信信息、财产信息、住宿信息、交易信息等公民个人敏感信息,涉及人身安全和财产安全,被非法获取、出售或提供后极易引发绑架、诈骗、敲诈勒索等关联犯罪,具有更大的社会危害性。
多数公司在观望
随着《网络安全法》和“两高”司法解释的实施,正在筹备中的个人征信机构将面临双重监管。
部分征信机构低调作出调整,谨慎者选择下线数据业务线。比如腾讯征信已经停止对外提供服务,一位腾讯人士向财新记者证实这一消息;华道征信已经关闭云平台学历查询、个人对外投资、移动电话三合一要素验证、移动电话状态查询等服务。
未来征信机构与数据公司的边界将更加清晰。“《网络安全法》和‘两高’司法解释,将阻断非法获取和使用数据的产业链。”北京网贷协会秘书长郭大刚向财新记者表示。
财新记者了解到,中国移动旗下的试金石征信,专门请第三方调查机构对与其合作机构进行背景调查,不通过的企业不提供服务。
张韶峰告诉财新记者,“两高”司法解释发布后,百融已暂停授权协议不明确的客户,“就是损失收入也要把合规做好”。
但大量消费金融公司、互金平台等数据需求方,对此动向并不敏感,很多大数据公司并未着手内部合规性审查,仍然在积极拓展业务,与银行及网贷公司等频签合同、大数据公司被资本追捧的消息仍不时传来。“只有个别客户,从内部重视合规性要求数据源提供方做相应的保障和声明;或者专门组织数据供应商的座谈会来解读‘两高’司法解释。”据前述律师透露。
《网络安全法》实施近两个月,财新记者留意了多个App的用户使用协议,普遍仍未明确信息收集范围、亦未见修改协议。“今后没有灰色地带,就是数据来源合规和不合规、合法和不合法。如果数据来源不合法,就会面临处罚;非法获取和使用个人信息的互金平台等,也是‘两高’司法解释的重点打击对象。”前述资深律师指出。
电子数据取证和调查领域专家KrolL Discovery大中华区中国区经理赖左罕(Han Lai)认为,大数据公司法务部门须重新审阅商业模式和流程;这会增加成本,但网络安全环境的建立和维护势在必行。“做得越完善也就越有利于降低今后的成本。现在不调整,以后的运行成本会越来越高。”
“目前大家还在观望政府会怎样执行《网络安全法》和‘两高’司法解释。当出现违法情况时,究竟是强制执行还是弹性处理,是以罚款还是刑罚方式处罚,这些目前都尚不明确。”赖左罕告诉财新记者。
根源网络实名制?
在业内多位专家看来,堵截网络欺诈、电信诈骗的根本是规范信息泄露源头,这需要对身份认证的全面系统性顶层设计。
“凡是以个人信息比对、以信息的充分性来进行网络身份识别的,一定会泄露所有的个人信息。各行业与身份证号关联的信息一旦被‘黑产’关联,就能全面反映个人的隐私信息,这是一个死结。”上述公安部三所专家表示,“世界上其他国家都没有市场化的身份信息核验制度,因为这侵犯个人隐私。”
大数据时代,一旦身份信息向互联网机构提供,结果就是附加的个人信息验证要素越来越多,身份四要素已经不够用了,还得加上人像识别、活体识别,但新技术不断被攻击;结果是信息越要越多,泄露越多,陷入恶性循环。“即便互联网机构不留存个人信息,怎么保证在网络传输中是安全的?”他反问。
在前述公安部三所专家看来,根源在于网络实名制的泛化。主要西方国家出于保护个人隐私信息的角度,未要求网络实名。中国因国情特点,要求全面落实网络实名制,比如支付账户实名制、网络游戏实名制、快递实名制、移动运营商实名制等,“现在App都要强制实名制”。
实名制是通过二代身份证用于线下身份认证,“到了线上,防伪功能就都没有用了,只是一串身份证的数字号码;线上不应该也通过线下的身份信息来验证。”一位业内人士对此表示,“强制实名制只是为了监管便利,但是把原本线下适用的强制实名制复制到线上,却没有考虑到公民隐私信息的泄露问题。”
“大数据时代来得太快,而中国尚未构建一套适用于互联网时代的身份认证的基础设施,也没有个人信息保护的顶层设计制度。以后‘大数据+人工智能’用于犯罪,公安部门都很难对付。”而核心问题怎么确定个人的网络身份。这个网络身份,不应该直接用法定身份,而是类似护照的另一个身份,“护照上并不印身份证号”。
“国家应站在网络空间治理的角度,提供一个全面的基础设施。”他举例说,eID卡(公民网络身份识别标识)正是为了落实前台匿名、后台实名管理而提出的一项网络身份管理技术,就可以解决个人身份信息的泄露问题。
eID以密码技术为基础、以智能卡芯片为载体,通过高强度安全机制,确保芯片载体及其持有人一一对应,由公安部门签发给公民。客户在银行柜台和网上购物时使用eID卡,只显示一个编码,而不是全部的身份证信息。这样既保护了个人身份信息,又可追溯网络行为。
目前,eID是欧盟国家网络身份识别的主流技术,美国也正在一些州开展试点,中国处于试点推广阶段。“一旦国家建立eID这个基础设施,过段时间身份信息泄露的问题就可以解决,因为爬虫等搜集的信息有时效性。”上述业内人士说。
“中国应快速建立线上网络身份识别体系,但需要国家立法推动。”前述公安部三所专家说。
信息保护亟待堵漏
大数据时代的个人信息保护和监管,是个全球性难题。
欧盟已发布全球最严格的个人数据保护法规《通用数据保护条例》(2018年5月生效),具有全球适用性,适用于所有为欧盟居民提供商品服务的境外数据处理商,也包括服务于欧洲客户的中国公司。
美国2012年颁布的《消费者隐私权利法案》,集中体现了美国政府应对大数据时代隐私保护问题的做法。另外,2016年8月1日,美国和欧盟签署的“隐私盾”协议已正式生效,替代了此前的“安全港”协议,提高了个人数据保护水平。根据“隐私盾”协议,用于商业目的的个人数据从欧洲传输到美国后,将适用与在欧盟境内同样的数据保护标准。
欧美等发达国家在个人信息保护方面的共性是:合法、有许可、目的受限、必要且数据最小化(仅收集必要的数据并尽可能不收集不必要的数据,并限制数据保留时间)。
近几年,中国已陆续出台与个人信息保护相关的诸多法律规定,但基本散落在效力层次不一的各种法律法规乃至规范性文件中。业界一直呼吁,应对相应法律进行系统化梳理和整合,尽快出台统一的个人信息保护法规。
全国人大财经委副主任委员吴晓灵在今年4月的“个人信息保护与征信管理”国际研讨会上呼吁尽快制定专门的《个人信息保护法》。“目前全球已有近90个国家和地区制定了个人信息保护的法律,个人信息保护专项立法已成为国际惯例。”
在立法的基础上,更重要的是加强监管和执法力度。去年底中国青年政治学院互联网法治研究中心发布的《中国个人信息安全和隐私保护报告》指出,尽管当前针对个人信息的非法获取与利用的司法判决为数不少,但与个人信息泄露的普遍状况相比,并不成比例,起不到威慑作用。
相形之下,国外多家知名互联网巨头曾因个人信息处置不当遭受巨额罚款或监管部门审查,甚至陷入诉讼。
最新的例子是,今年7月初,美国联邦贸易委员会称,其已与亚利桑那州公司Blue Global Media,就该公司涉嫌违法售卖提交在线借款申请的用户个人信息的行为达成和解,和解金额1.04亿美元;德国联邦企业联合管理局正在审查一项关于Facebook欺压用户的指控,即Facebook胁迫用户在其未必了解具体方法的情况下, 同意让其收集用户自己上网活动的相关数据,并且以此为依据推送个人化的广告、视频推荐及搜索结果。
吴晓灵认为,中国对于个人数据保护尚未构建类似的专业性监管机构和相应的组织体系,不仅降低了政府的治理效能,也使数据保护监管业务处于真空状态,最终造成了某些机构往往以拥有海量数据大肆炫耀、却拒绝履行保护责任的现状。
她建议,设立国家层面的个人信息保护委员会,专门负责个人信息保护,推动个人信息保护法律完善和实施、开展个人信息保护行政执法等。同时,由政府的相关部门按照法律法规的规定在自己的职责范围内负责个人信息保护和监督管理工作,如人民银行监管金融类数据、工信部监管电信类数据,卫生部监管医疗类数据等。
此外,从个人层面提高隐私保护意识是基石。世界银行集团全球金融基础设施建设技术援助负责人Tony Lythgoe表示,社交媒体很难保护个人隐私,信息可能会被用于其他目的。监管不仅仅要针对使用信息的机构,还“需要从机制上来解决这一问题,不仅要改善内嵌于这些系统上的数据质量,还要去教育公众树立个人隐私信息保护意识”。