中国数据开放共享的“道”与“术”

月满西楼
数据安全、数据开放、数据应用构成了价值闭环,不能孤立的看其中某一个环节,而是要借助辩证发展的眼光,以数据开放为抓手,在数据安全和数据应用之间实现很好的权衡,以安全保障应用,以应用促进更广范围、更高水平的安全。

2345截图20220818151609.png

本文来自数据猿,作者/月满西楼。

我国的数据开放共享应该怎么做呢?在数据猿看来,需要从三个方面发力:

以安全为数据开放保驾护航,以开放促进数据应用

国际国内对数据安全的重视程度都在提高,公众对隐私泄露的关注度也在上升。数据泄露事件,往往会严重打击平台的公信力,进而动摇其生存根基。因此,数据安全和隐私保护,是数据开放和共享的基础。要推动数据开放共享,必须要解决数据安全和隐私保护问题。同时,数据的最终价值在于应用,所以要处理好数据安全、数据开放和应用之间的关系。

那么,如何提升数据安全保护、数据开放和应用水平呢?数据猿认为需要从以下几个方面着手:

加快完善数据安全保护的法律法规。在数据安全立法方面,欧美走在全球前列。中国已经建立了以国家安全为核心的数据安全和个人信息保护的法律框架。并出台了一系列相应的法律法规和标准,涵盖国家网络安全、数据安全、个人隐私保护等方面。但是,总体上我国的数据安全法律法规在落地实操方面还不健全,需要进一步明晰和细化。且要符合中国数字经济的发展需要,安全与发展并举。

建立、健全数据安全立法的主要目标,是不仅要通过惩戒数据泄露的主体起到警示作用,还要有对被损害方的补偿机制,进而建立消费者的信心。例如,需要健全公诉机制,一个互联网平台泄露了大量用户的隐私,损害了用户权益,那就要对被损害的用户给出相应的赔偿;一个云计算公司,泄露了企业客户的数据,客户也应该有权要求获得相应的赔偿。需要建立完善的机制和法律法规体系,来保障数据所有方的权益,这样才能解除企业数据上云的后顾之忧。

除了法律体系建设外,数据安全技术的发展,也发挥着关键的作用。我们要以更大力度推动数据安全保护技术的发展,为数据打造坚不可摧的“盾牌”。数据安全不仅仅是个机制和法律问题,也是个技术问题,绝大部分的数据安全问题都可以找到技术解决方案。例如,以隐私计算为代表的新技术(包括多方安全计算、联邦计算、可信执行环境、同态加密等),可以实现数据的“可用不可见”,这从根本上缓解了对数据泄露的担忧。有效利用这些新技术,夯实数据安全保护的基石,可为数据开放共享奠定一个良好的基础。

需要注意的是,要以辩证和发展的眼光看问题。数据安全和数据开放应用是辩证的,温室的花朵经不起风雨,不用就不知道哪里容易出现问题。要在数据开放和应用过程中发现安全隐患,堵上安全漏洞。从这个角度上看,数据开放和应用是保障数据安全的必要基础。安全需要与发展并举,并不存在100%的安全,也不能因为怕出现数据安全事故就阻碍数据开放和数据应用。“开放”和“应用”是数据作为生产要素的天然属性,数据作为一种新的生产要素,要通过流通和应用才能真正发挥出价值。必须要清楚,我们的目标是通过数据应用来实现价值,而不是为了规避风险而将数据束之高阁。

而且,数据安全有两层含义:第一层是数据本身的安全,第二层是通过数据应用去提升其他行业领域的安全水平,比如通过风控、反洗钱提升金融行业安全,通过欺诈识别、犯罪数据分析提升公共安全等。例如,励讯集团旗下的律商联讯风险信息(以下简称“律商风险”)40多年来一直专注于利用数据和分析,服务于政府和经济:在政府领域,律商风险帮助政府防范企业和个人逃税漏税或者冒领退税;防范不法分子冒领政府福利;防范医疗计划中医疗机构的欺诈、滥用、浪费行为;协助警方办案人员既快又准地识别和追踪犯罪分子、查找被拐卖人口、利用预测性模型协助警方优化警力资源部署。在经济领域,律商风险帮助银行和保险公司识别和招徕高质量客户,履行在反洗钱、反贪污贿赂等方面的合规义务,帮助金融机构评估企业和消费者信贷风险,识别欺诈风险、降低赔付风险,提升银行和保险公司债务追偿能力等。

数据安全、数据开放、数据应用构成了价值闭环,不能孤立的看其中某一个环节,而是要借助辩证发展的眼光,以数据开放为抓手,在数据安全和数据应用之间实现很好的权衡,以安全保障应用,以应用促进更广范围、更高水平的安全。

完善“政府-行业-企业”数据开放共享链条,形成价值闭环

数据猿认为,要推动全社会的数据开放共享,有三个关键参与方,分别是政府、行业、企业,这三方通力合作才能构建一个完善的数据开放链条。

2345截图20220818151609.png

政府-行业-企业数据开放链条数据猿梳理

首先,政府要负起主体责任,在数据开放的广度、质量方面,进一步提升。政府掌握的数据无疑是最全面、系统,也是最权威的。有些数据甚至是政府独占,比如社会保障数据、国家经济数据、人口相关数据、气象数据等。政府持有的公共数据的开放,为社会提供了基础的数据集。提供公共资源和服务,是政府的重要职责。传统公共服务主要指的是城市道路、医院、学校、高铁等实体基础设施。在数字经济时代,开放公共数据,将成为政府提供的一项重要公共服务。

以前,主要是政府从市场上各个领域单项的收集数据,作为政府决策的基础。数据只在政府内部的各个部门流通,并没有作为一项公共资源对外输出。接下来,数据将在政府和市场之间双向流动。政府不仅从市场收集数据,还向市场提供数据,取之于民用之于民。

其次,各个行业协会、联盟等行业组织,是数据开放必不可少的重要桥梁。互联网、电信、金融、交通、物流、制造等行业要构建本行业的开放共享数据集,制定本行业的数据开放标准,保护本行业数据安全。同时,推动本行业数据在内部的共享应用,以及跨行业数据之间的开放、共享、应用。政府只能提供一些基础数据,要更加专业的行业数据,则需要该行业的共同努力才行。欧美国家在构建行业数据开放共享平台方面走在全球前列,有大量头部公司牵头构建行业数据共享平台。例如,励讯集团旗下律商风险在全球范围内建立了17个行业规模保险行业数据共享平台。在美国市场,律商风险的车险理赔数据共享平台C.L.U.E已经有25年的历史,覆盖99%以上的车险行业理赔案件的准确细节信息,广为各家车险公司信任和使用。

最后,政府、行业开放共享出来的数据,需要人工智能、大数据等企业来构建相应的智能应用,进一步释放数据的价值。例如,医疗影像AI是医疗创新的一个重要方向,借助人工智能技术,可以让AI系统“阅度”CT影像、核磁影像等,自动识别出病灶。中国一直受困于医疗资源的匮乏,对各种疾病的早期筛查做的很不够。医疗影像AI可以辅助医生进行各种疾病的诊断,尤其是各种癌症的早期筛查,这大大提升了医疗资源的供给。医疗影像AI的发展取决于两个核心要素:AI算法和医疗数据。以乳腺癌AI为例,一方面要领先的AI模型,另一方面需要大量的乳腺癌医疗影像数据来进行模型训练。然而,高质量的医疗数据并不多,并且不同医院之间的数据并不能很好的共享。由于不同医院的医疗设备供应商、设备型号多种多样,造成医疗影像的数据标准并不统一。这会带来一个严重的问题,用A医院数据训练出来的AI模型能够达到99%的准确率,但将该AI系统用到B医院之后准确率就大打折扣。

可以说,医疗数据的匮乏和不共享已经成为医疗AI发展的关键瓶颈。因此,需要推动医疗行业的数据开放和共享,统一数据标准,构建医疗共享数据集。在乳腺癌AI这个例子中,如果能够将全国大部分医院的乳腺癌相关影像数据实现开放共享,构建一个全国范围内的乳腺癌医疗影像数据集,那么用这个数据集训练出来的乳腺癌AI模型,不仅将有很高的准确率,而且可以应用于不同医院还能保持很高的鲁棒性。

总之,数据开放和应用,需要各方的共同努力:政府为数据开放提供良好的政策环境,并通过政府数据开放为市场提供基础数据;电信、互联网、医疗、金融等各个行业,要依据自身行业的业务特点,推动行业内部企业、机构之间的数据开放,共建行业共享数据集。同时,也注意不同行业之间数据的开放共享,比如电信、金融、互联网之间相互的数据开放,构建跨行业共享数据集;各个领域的企业,则是数据创新应用的主体,基于开放数据集探索应用场景,释放数据的价值。至此,构建了一个数据开放共享的闭环。

探索数据要素的价值分配机制,分好1.7万亿的“蛋糕”

要想数据开放和共享具有持续性,建立政府-行业-企业的开放体系还不够,还需要理顺各方的利益机制,让各方都能有从中受益。失去人性失去很多,失去兽性失去一切。通过理顺利益分配机制,让数据开放和共享的各方“有利可图”,才能从根本上带动大家开放和共享数据的积极性。

数据猿认为,数据开放所能获得的收益可以分为两层:

第一层,数据开放共享本身所产生的价值,典型的场景就是数据交易。各个大数据交易所正是为了解决数据交易问题,试图以交易来推动数据的开放共享。然而,以实际运行情况来看,我国的大数据交易市场发展的并不好。依据由国家工业信息安全发展研究中心发布的《2022年数据交易平台发展白皮书》,截至2022年8月,全国已成立44家数据交易机构,平台的注册资本多数介于5000万至1亿元间。

目前我国的大数据交易所还面临一系列挑战,诸如数据产权不清、数据交易活跃度不高、新技术支撑不充分、出现平台同质化竞争苗头等问题。一个重要的原因是,目前还没建立起科学合理的数据价值评估体系,数据不好定价,而价格是市场交易的核心,当买卖双方给出的价格存在巨大差距时,交易就很难进行下去。要解决这个问题,就涉及到数据价值的第二层。

第二层,基于开放共享数据所衍生的一系列应用所产生的价值。相对于数据交易本身的价值,来自于数据应用的价值要大很多。数据作为一种生产要素,要参与“生产”过程才能释放其价值。就像资本作为一种生产要素,如果只是存放在银行当中,价值是很有限的,但如果将资本用来建工厂进行商品生产,则其产生的利润要大很多。

因而,要改变以前那种直接一次性交易数据的方式,不是“卖数据”,而是“卖数据的使用价值”。通过数据开放和共享,将散落在各个角落的数据汇聚起来,再借助AI、大数据、SaaS等技术进行数据分析和数据挖掘,用数据赋能业务,提升企业的决策、运营、生产、营销效率,让数据产生“剩余价值”。然后依据共享数据相关方的贡献,来分配数据应用所产生的“剩余价值”。

数据智能的要素有三个:算法、算力和数据。随着云计算的发展,算力的价值分配方式已经比较成熟了,数据的价值分配方式可以借鉴云计算领域的“按使用量计费”模式,数据要素就像IaaS算力一样,提供基础要素;上层的SaaS、AI应用,调用底层的共享数据集,按照调用的次数、数据使用量来计算费用。比如,基于共享数据集的上层应用,创造了1000万元的应用价值,那下层数据集则获取200万(20%)的价值。共享数据集的各个数据贡献方,则依据自身数据的价值以及当初的约定,再分配这200万的价值。

当然,以上的设想只是一个简化的模型,实际情况远比这个更复杂棘手。在实际应用过程中,还需要解决两个方面的问题:数据应用价值评估还是一个亟待解决的难题,数据在应用过程中到底产生了多大的价值,这其中有多少价值是来自于数据,并没有明确的计算方法,业界还在持续摸索过程中;在实际应用过程中并不存在单一的计费方式,数据应用的付费方式多样化。比如,有些企业按数据使用量计费+年保底费用的方案,来收取数据费用。此外,不同行业的数据计费方式可能存在很大差异,比如金融数据可能与交通数据在收费模式、计费公式等方面存在根本的不同。

需要指出的是,虽然实际的商业环境复杂多变,但并不意味着我们上述数据应用付费模型没有价值。从复杂的表象中抽象出简洁的模型,往往是建立理论体系的关键一步。在应用过程中,可以再结合实际情况对简化的模型进行修正,得出更合理的结果。

接下来,让我们算一笔总账,看看数据要素能在整个数字经济中分到多大“一杯羹”。依据中国信通院的数据,2021年,我国数字经济规模达45.5万亿,占GDP的比重为39.8%。其中,2021年我国产业数字化产值37.18万亿,占数字经济的比重为81.7%,数字产业化规模8.32万亿,占比18.3%。产业数字化的核心,就是通过数字化赋能,实现制造业的转型升级。

2345截图20220818151609.png

中国数字产业化与产业数字化的内部结构数据来源:信通院数据猿整理

这上万亿的价值如何分配的呢?我们知道,在市场经济当中,各类生产要素都要参与价值分配,资本、人力、土地、技术都要依据自身的贡献来分配收益。同样的,在数字经济当中,数据作为一种生产要素,也应该要参与整个价值的分配过程。

在整个数字经济当中,占比最大的产业数字化的价值主要由实现数字化转型的企业本身获得,提供算力、算法和数据的企业主要参与“数字产业化”这部分价值的分配,即划分8.3万亿的蛋糕。其中,人工智能、大数据等提供数据智能技术产品的企业占比最大,假设分走50%(4.2万亿)的份额;剩下的提供算力的企业分走30%(2.5万亿);提供数据要素的企业,分走20%,即1.7万亿。也就是说,数据作为生产要素,每年就应该获得1.7万亿的价值,并且这个数据还在快速增长。这1.7万亿的蛋糕,再在开放共享数据的各个企业、机构之间进行分配,谁开放共享的数据量越多、数据质量越高,谁就获得更多的收益。

2345截图20220818151609.png

数据要素的利益分配机制数据猿梳理

只要理顺数据价值链的利益分配机制,让数据开放和共享的各方真正能从数据应用当中分一杯羹,将极大地调动各方开放共享数据的积极性。从上面的计算过程可知,在理想情况下,分配给数据要素的价值可达到1.7万亿。作为对比,国内各类大数据交易所不超过100家,而交易所一年的平均交易金额不超过1亿,全国数据交易产生的价值在1000亿以下。

可以发现,数据本身的价值是比较小的,更大的价值在于数据的应用。只有将数据用起来,并让数据要素参与应用过程中产生的价值分配,才能创造足够大的蛋糕。与不到1000亿的数据交易市场相比,超过1.7万亿的数据应用市场才更有吸引力。

最后,需要指出的是,就像市场经济由“看不见的手”和“看得见的手”共同调节一样,数据开放共享市场除了完善利益分配机制这双“看不见的手”之外,还需要一些不以利益为导向的“看得见的手”。在整个市场中,依然有一些机构或企业是以公益的心态来推动数据应用。

以励讯集团为例,其旗下的爱思唯尔推出的免费的、开放获取的新型冠状病毒资源中心,2021年的下载量就超过1.75亿次;励讯集团旗下的律商风险免费为美国交警提供交通事故报告生成、分发和分析工具箱,目前已经为美国各地800多个地方警察局所采用。将数据与数据分析工具结合应用,律商风险协助警方预判同一违法分子下一次作案的时间和地点,使得警力可以有的放矢的现场拦截违法行为。举一个有趣的真实案例:在美国某地区发生了加油站的连环抢劫案,律商风险通过分析数据发现,犯罪分子总是在夜里11、12点左右,集中性的在某个地点附件抢劫,所以建议警察精准部署警力,在夜里相同时间去蹲守已经被抢劫过的加油站附近的几个加油站,果然很快就逮住了这个惯犯。

总体上,需要建立一个分层、结构化的数据开放体系,让政府、行业、企业以及大数据交易中心等主体都能有效参与进来。政府要加快完善法律政策环境,同时开放基础数据;各个行业要推动行业内数据的开放共享,构建内部数据集;企业要有效利用已经开放的数据,充分探索数据应用场景,让数据真正创造价值。要着力理顺数据产业的价值分配机制,让开放数据的企业和机构能够相匹配的收益,让“看不见的手”成为推动企业主动开放共享数据的强劲引擎。同时,政府数据开放、机构和企业公益式的数据开放作为“看得见的手”,培育全社会数据开放的良好氛围。

应该看到,数据开放共享是数字经济的关键基石之一,我国的数据开放事业已经相对滞后于数字经济的发展了。接下来,需要各方通力合作,在保障数据安全的前提下扩大数据开放的规模,提升数据开放程度,构建有序的数据开放市场秩序,以数据应用带动数据开放,以数据开放促进数据应用,为我国数字经济的高水平、可持续发展奠定坚实的数据基础。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论