数据以分布式存在,而非以集中的形态存在,恐怕不但是一种现实,更是一种不可逆转的发展趋势。更好的办法可能是,数据不过来,我们就过去。
有人说,能够实现共享的大数据是人类的第二座巴别塔。但目前这座巴别塔似乎处于危险之中。由于安全、隐私及商业利益等原因,数据的收集、融合和共享变得越来越难。数据以分布式存在,而非以集中的形态存在,恐怕不但是一种现实,更是一种不可逆转的发展趋势。更好的办法可能是,数据不过来,我们就过去。
数据归集越来越难
尽管拥有全球最丰富的大数据资源,但是中国却称不上大数据强国。数据资源远未被充分利用,老百姓尚未充分享受到大数据利用的红利。原因可能有三方面,一是80%的数据集中在政务系统,还没有被公众充分利用;二是数据的分布式存在状态(或者可以称为割裂)已成为现实,并将愈演愈烈;三是个人对于数据隐私保护的意识不断觉醒,数据归集将越来越难,越来越有风险。
承认吧,数据天然就是分布式存在的。欧盟《通用数据保护条例》(General Data Protection Regulation,简称GDPR)宣称,数据的携带权应当归用户所有。任何应用程序都不能理所应当地占用用户的数据。当前,恐怕也只有行政权力能够将数据划归到某一个平台——然而,这种划归的效率也是非常低的——由于无法控制各部门生产和收集数据的过程,只能实现数据的“物理搬家”;各部门报上来的数据的质量、时效和口径良莠不齐;政务大数据平台在调取各部门数据时,也难以对原始数据进行及时反馈,指导其改善数据质量、统一数据口径。因此,“数据提供—计算应用—改善数据”之间的闭环无法形成。
可以说,当前我们的巴别塔难题,已经昭然若揭地表现为,数据的分布式存在和我们对于集中式计算之间的矛盾。我们已经习惯了数据轻易地被归集到某一平台,然后由这一平台进行大数据运算,得出在商业上有价值的结论。而当数据难以归集的时候,大数据、云计算、人工智能、区块链这些威力无穷的技术,似乎就无能为力了。
“数据孤岛”背后的共享困境
人们发现,如果听由数据散落在地,而不是串成珍珠,可能会形成“数据孤岛”的问题。
比如,如果不打通各个借贷平台的数据,多头借贷、以贷养贷就很难识别出来。数据表明,贷款申请者每多申请一家机构,违约的概率就上升20%。然而,各家机构并不愿与竞争对手分享用户数据(即使信贷机构有意愿分享,也可能因存在侵犯用户隐私的风险),导致各家机构都成了“数据孤岛”。一个人在一个平台上借款后,还可以跑到另一个平台再借,然后拆东补西,到最后可能连自己都不知道,到底在哪些平台借了多少钱。
数据的打通,有时也是提高某些领域商业服务、改善民生的客观需要。以保险理赔为例。目前,参保人须将所有表单、医疗收据、病历等资料收集齐后,提交或上传给理赔平台,周期长、效率低。人们往往在生病治疗时捉襟见肘,资金周转不开。许多保险公司希望医院能向保险公司共享数据,建立赔付快速通道。然而,院方考虑到医疗数据安全和患者个人隐私,不愿直接把敏感的医疗数据开放给保险公司。保险公司拿不到数据,赔付效率无法提升。看病难,报销更难的问题始终存在。
一方面,人们需要大数据带来的红利,另一方面,改变数据的占有状态又越来越难。前面说过,从有些大数据平台的建设情况来看,即使用行政力量实现数据的强制划拨,也不过是数据的“物理搬家”。当然,这绝不是在质疑政务大数据平台建设的意义。数据政务平台的建设当然意义重大。除了实现数据归集外,更重要的是向公众和商业机构开放。
以前面提到的金融机构为例,如能拿到工商、税务、社保等数据,能显着提升风控能力;商业地产机构如果能拿到有关车流、人流的数据,将有效地提升地产开发与规划设计的准确度;制造业如果能拿到同行业或上下游的工商、税务数据,也能更精准地预判明年的资源投放和行业格局。然而,受制于数据安全和合规要求,政务数据的开放目前严重滞后于商业开发的需求,有的地方只是流于形式。
数据不过来,计算就过去
人们需要在不改变数据占有状态的同时完成对数据的利用。早在1982年,图灵奖唯一华人获得者姚期智院士就提出了一种解决方案:分布式计算。既然无法改变数据分布式的趋势,那么干脆就把计算也设计成分布式的。数据不过来,计算就过去。也即不改变数据的存储状态,而是变通利用数据的方式。比如说,将数据计算的模型分布部署于原始数据域内,在数据不出域的情况下进行计算,仅输出结果,而不获取原始数据,确保数据安全及用户隐私得以保障。
以金融机构的信用数据查询为例。有了这一技术,就可以将计算模型部署在原始数据域内,对工商、税务、行政处罚等数据进行提取运算,直接形成有关用户的信用数据,并在此基础上判断,能不能借钱给他(她),借多少比较安全,收多少利息合适。然后向外直接输出结论,这个客户有关的原始数据始终保护得严严实实。同时,计算过程处于密文状态下,原始数据持有人无从了解模型的计算原理,甚至无法知道哪位客户的哪些数据被调取进行了计算。
再以前面提到的保险快速理赔通道为例。保险公司可以将理赔模型和理算规则部署在医院域的计算节点上。患者就医后产生费用的同时,保险公司就可远程在医院域内利用原始就医数据进行理赔判断和赔付计算,然后输出理赔结果,为理赔作好准备。患者上午看完病,下午就能拿到赔付款。重要的是,利用这一技术,还可以对患者的原始医疗数据进行加密。保险公司的模型可以在密文状态下对数据进行处理(从而保护了其价值连城的模型IP),在保护医院数据与患者隐私的前提下,大幅提高理赔效率,解决“就医难、理赔更难”的痛点。
或需重构数据领域法规
推而广之,这一技术或许能够解决政务大数据平台建设的难题。各地在打造大数据平台时,无需将工商、税务、民政等部门的数据全搬到平台上,而只需将运算模型或规则部署在各部门的数据域内。任何时候需要调取数据,直接在相关域内进行计算,获得结果输出即可。数据不用搬家,原始数据方可以实时维护、实时更新。大数据平台任何时候调用,都可获得最新的结果。
当然,模型和数据之间也可能不那么适配。那么,一个办法是不断调整和完善计算模型,另一个办法则是根据模型的反馈去优化数据的质量。由于计算模型部署在原始数据域内,可以根据原始数据的范围、口径、状态和更新状况,对公式和模型不断进行训练和升级,提高查询的针对性和效率。
另外,模型在调取数据进行运算时,也可以实时向原始数据部门反馈那些“不称手”“用不来”的数据;为其未来对数据的收集、整理提供改善建议。这样的双向优化如果能持续下去,或许能使建立在数据基础上的政务治理真正成为可能。
我们来畅想一下,假如未来比想象中来得快,分布式计算成为数据共享的主流技术,那么很多法律规则可能都将发生改变:
首先,有关数据隐私保护的重心,可能会从对归集的规制,转向对分布协议达成是否自愿、平等和信息对称的关注(特别是考虑到原始数据持有人可能是分散的个体,而部署计算模型的平台可能是强大的平台,双方难以进行平等谈判)。
其次,由于原始数据不会出域,而是留在数据持有人手中,届时每个人的云端账户可能都需要配备足够安全的“锁”,既防君子又防小人。
第三,数字资产的归属问题很可能会从原始数据的权属,转向通过分布式计算得出结论所产生的商业利益的分配(同样,由于难以进行平等对话,因而可能需要建立最低的分配比例标准)。
最后是法律责任追究问题。如果数据共享的方式已经发生了变化,那么违法侵权行为的构成要件显然也会发生巨大变化。
总体看来,如果分布式计算更多地被应用,那么数据领域内的法律原则与监管规制,很可能将需要重构。而且,脚步恐怕要够快——如果跟不上技术的变化,好不容易出台的那些规则,恐怕难免会有些尴尬,甚至成为一记记“挥空了的拳头”。
(作者系中国政法大学新金融研究中心研究员林建军)