本文来自微信公众号“数据猿”,【作者】月满西楼。
2024年,数据要素产业元年开启。
这是建章立制的一年:从年初《“数据要素×”三年行动计划(2024—2026年)》开始,这一年政策密集出台,涵盖公共数据资源开发利用、可信数据空间发展、企业数据资源开发利用、数据产业高质量发展。
这是市场规模快速增长的一年:2024年,全国数据市场交易规模预计超1600亿元,同比增长30%以上。行业应用进一步深度融合,尤其是在金融、医疗、交通等领域。
这是新技术加速融合应用的一年:人工智能、密态计算、区块链等技术在数据要素流通中的应用不断深化,为数据的采集、存储、处理、分析和共享等环节提供了更强大的支持。
与此同时,产业实践中的挑战依然突出。比如,一家金融科技公司试图通过整合多方银行数据与公共数据,为中小企业提供精准的融资决策。但问题是,这些数据必须加密才能保护隐私。然而,加密计算的高昂成本让数据的快速流通几乎不可能。每一笔数据的加解密都需要消耗大量计算资源,尤其是在面对成千上万笔交易时,高昂的计算成本成了瓶颈,限制了数据价值的共享和应用。
这一问题不仅出现在金融领域,在医疗、制造、物流、零售、能源等多个行业领域,都普遍存在。这个问题的本质,是“安全-性能-成本”似乎组成了一个“不可能三角”,制约着数据大规模流通与应用。
在最近的CES上,英伟达CEO黄仁勋说,“回顾过去的二十年,我们已经成功地将计算的边际成本降到了原来的百万分之一,这一变革使得机器学习成为可能。”同样,只有当加密计算性能提升、成本大幅度降低,大规模数据流通时代才有可能到来,创造新的产业价值。
在过去的2024年,我们离这个拐点又近了一步。
数据只有流动起来,才能释放出价值
数据,正从一种“被动资源”转变为“主动资产”。它不再仅仅是企业运营的副产品,而是推动经济增长、技术创新和社会发展的核心力量。可问题是,如何释放数据的价值?答案是:通过规模化流通与应用。然而,要让数据真正成为生产力,它面临的第一个阻碍就是——安全。
这一切的核心问题是:在这个信息爆炸的时代,如何在保障数据安全的前提下,实现数据的规模化流动和高效应用?
数据流通的需求已迫在眉睫,国内的数据交易市场正在蓬勃发展,数据的跨行业、跨组织流动已经成为常态。但现实却是:每一次数据的跨界流通,都面临着前所未有的安全挑战。如果提供安全保障,伴随而来的则是“天价”的计算成本。那加密方案的计算代价则像一个隐形的枷锁,绑住了数据流通的速度与广度。数据越多,计算成本越高,流通效率越低——这一矛盾,如同数据经济的“死结”,难以解开。
比如,公共数据平台建设的需求日益增大,政府和企业都在大力推动数据的开放共享。现有的加密方案虽然能保障数据安全,但其低效和高成本的特点,使得大规模的数据共享成为一种奢望。每一次数据价值的“解锁”,都需要付出不成比例的计算代价。这就像在试图建造一座桥梁,但所需的钢铁远超承受能力,还是无法跨越鸿沟。
与此同时,大模型的商用化需求也在加速崛起。为了训练出能够解锁行业智慧的大模型,企业需要建立海量、丰富的数据集。然而,这些数据集中的很多数据,都包含了敏感信息,如何保证安全,同时满足大数据的流通和应用,成为了巨大的挑战。
目前,数据安全的高成本,正成为整个数据应用和数据流通的“隐形桎梏”。当计算成本过高时,即便是金融、医疗等高价值行业,也只能选择性地保护部分数据,而无法实现全面的规模化应用。
这一困境不仅仅是技术问题,更是行业发展的“死结”。要推动数据要素化的发展,解锁数据的价值,必须解决的就是这个“死结”。打破“安全-性能-成本”三角,才能开启数据的大流通和应用时代。
这一矛盾的解决,是技术、产业与社会需求的汇聚点,而这个“汇聚点”的突破,最终将决定数据要素产业的未来。
破除“不可能三角”,是一场艰难的接力赛
事实上,产业界一直在致力于解决上面提到的“安全-性能-成本”不可能三角问题。在这个漫长的探索历程中,为了满足市场需求,技术在不断创新,“安全-性能-成本”的平衡不断也在持续向前推进。
以史为鉴,可知兴替。为了看清楚前路的方向,我们有必要回顾一下这一路走来的艰辛。
①早期的加密技术探索
数据安全的探索始于20世纪70年代,当大规模数据流动的需求首次出现时,隐私保护成为亟待解决的核心问题。1976年,Diffie和Hellman提出的公开密钥加密(Public-Key Cryptography)开创了密码学的新纪元(他们也因为这一贡献于2015年被授予图灵奖),随后,1977年RSA算法的问世使非对称加密得以广泛应用。
Diffie(左)和Hellman(右)
然而,尽管加密技术在理论上解决了隐私保护问题,实际应用中却暴露了严峻的技术瓶颈。对称加密运算速度快,但密钥管理问题日益严重;非对称加密则计算量庞大,成为大规模数据交换的绊脚石。随着数据流通需求激增,现有加密技术的性能瓶颈严重限制了跨域数据的共享。
进入90年代,互联网的迅猛发展和全球化需求带来了前所未有的数据保护挑战。传统加密技术虽有效,但已无法满足复杂的跨域数据流通需求。企业和政府逐渐认识到,单纯依赖现有加密手段,已无法支持大规模、多方协作的数据交换,亟需突破性技术来打破这一困局。
②隐私计算的成功与限制
随着21世纪初大数据和云计算的崛起,数据流通的需求进入了一个新的阶段,尤其是在金融、医疗等高价值领域,如何在保护隐私的同时高效地共享和流通数据,成为技术攻关的核心。
2008年,同态加密(FHE)的提出,标志着隐私计算的重大突破。这一技术使得加密数据能够在不解密的情况下直接进行计算,理论上为数据隐私保护提供了革命性方案。
然而,同态加密的实际应用受限于其高昂的计算成本和低效的处理速度。尽管2010年至2015年间,IBM、微软等科技巨头在这一领域投入大量资源,致力于提升效率,但效果始终有限,技术仍只能在少数高价值数据领域如金融、医疗中应用,无法满足大规模数据交换和跨组织合作的需求。
与此同时,多方计算(MPC)和差分隐私技术逐渐崭露头角。MPC通过将数据分布式处理,实现在不同节点间合作计算,避免隐私泄露,成为跨组织合作的理想工具。2015年,Google等公司开始将MPC应用于广告优化和大数据分析,尽管计算开销较大,但其在隐私保护和跨境数据流动方面展现出巨大潜力。
差分隐私则通过向数据中添加“噪声”,保护数据匿名性,减少对数据源的依赖。虽然其在理论上为大数据隐私保护提供了一种有效手段,但实践中,差分隐私的效率较低,尤其在大规模数据集上,难以支撑实时计算。
③“下一代隐私计算”正在出现
近年来,进入2015年后,隐私计算技术经历了质的飞跃,逐步发展为密态计算这一全新的体系。是什么带来了突破?主要来自三个方面:算法优化、硬件加速,以及其与云计算、大数据、AI(尤其是大模型)的融合。
首先来看算法层面,进入2010年代,随着BFV、CKKS等新型算法的出现,计算效率得到了大幅提升。这些算法不仅优化了加密计算的速度,还减少了计算资源的消耗,使得同态加密能够处理更大规模的数据集,逐步摆脱了性能瓶颈,扩大了其在金融、医疗、保险等高价值领域的应用。
与此同时,硬件加速技术的崛起,特别是GPU和可信执行环境(TEE)的广泛应用,为密态计算提供了强有力的支持。与CPU相比,GPU具备成百上千个并行处理核心,能够同时处理大量计算任务,这一特性使得GPU特别适合处理密态计算中那些需要大量重复性、并行化的操作。例如,NVIDIA Tesla系列和A100 GPU等专用计算卡,专为高性能计算任务设计,在同态加密和多方计算等高密集型应用场景中表现出色。
此外,Intel的SGX(软件保护扩展)和AMD的SEV(安全加密虚拟化)等可信执行环境的问世,为数据提供了更高层次的物理隔离,确保在计算过程中敏感数据不会泄露。
更进一步,机密计算与云计算、大数据、AI等技术的深度融合进一步推动了其产业化进程。尤其是叠加云计算的弹性计算能力,机密计算方案的性能得到进一步提升。
随着这些突破的实现,机密计算技术的商业化加速,国内外多家企业都在积极布局。例如,IBM推出的IBM Confidential Computing平台,通过提供集成的硬件加速和加密计算框架,推动了机密计算技术在云计算和大数据处理中的应用。Google和Microsoft也在机密计算领域投入了大量研发资源,致力于通过融合可信执行环境、同态加密等技术,为大数据分析和AI训练提供更强的隐私保护解决方案。此外,Zama结合同态加密与AI,提供隐私保护的同时推动机器学习应用的普及。Duality Technologies推出结合同态加密和多方计算的隐私计算平台,推动数据共享与跨组织隐私保护。
在国内,阿里云、腾讯云、华为云等,也在布局机密计算。例如,阿里云通过与英特尔合作,推出基于SGX技术的加密计算,保障云上数据安全,并在AMD平台上推出机密虚拟机实例,同时与龙蜥社区合作,推出机密容器参考架构,提升数据处理性能。腾讯云的T-Sec机密计算平台,基于TEE技术,提供端到端的数据保护。华为云则推出擎天Enclave,通过硬件信任根和内存隔离技术,为用户提供高度安全的计算环境,并与secGear合作,支持多种架构的机密计算应用开发。
与此同时,数据要素流通产业兴起,一批新的公司开始崭露头角。自2016年起,蚂蚁集团便开始重点布局隐私计算技术及规模化应用实践,其技术已广泛落地于农村金融、公共服务、新能源产业等领域。2024年,蚂蚁集团成立浙江蚂蚁密算科技有限公司,致力于提供密算相关的产品和服务,推动数据跨云跨端低成本可信流通。
2024年,蚂蚁公布密态计算技术体系,陆续推出“隐语云”系列密算产品,机密计算也是密态计算体系的关键支撑技术之一。在公共数据领域,蚂蚁密算助力杭州市建成全国首个密态计算中心,为数据产业生态提供全生命周期的密态安全保障;在金融领域,其参与的“农户秒贷”项目入选国家数据局首批“数据要素x”典型金融案例。
在这些实践中,蚂蚁密算的目标是“让密态计算成本低于数据流通价值的5%”,这才具备大规模推广的可能。在金融领域,这个目标已经达成。
可以说,正是一系列的技术和市场创新,正在逐渐突破“安全-性能-成本”不可能三角难题。
以数据安全平价,开启大流通时代
技术进步犹如“涡轮发动机”,不断推动数据安全、计算性能与成本之间的良性循环。每一次突破,都为数据流通与应用打开新的“通道”,逐步突破了“安全-性能-成本”三角的瓶颈,形成了一种自我加速的“演进飞轮”。
数据流通和应用的规模扩大,规模效应逐渐发挥作用:技术进步促使数据应用范围扩大,应用规模的扩大反过来又推动技术的进一步突破,进而实现一个良性循环。当数据安全的成本降低到一定程度的时候,我们就将迎来“数据安全平价”时刻。
正如“光伏平价”颠覆了全球能源格局,“电动汽车平价”重塑了交通产业链,数据安全的“平价”也将成为数字经济的下一个爆发点。
光伏平价的核心在于技术与规模的双重驱动:组件制造成本因技术进步和生产规模化迅速下降,而政策补贴则在初期加速了市场渗透。一旦光伏发电成本低于化石能源,清洁能源的普及便以不可逆转之势重塑了全球能源版图。
跨过“光伏平价”之后,光伏市场迎来指数级增长
资料来源:彭博Wind中泰证券研究所
电动汽车平价,则依赖于电池技术的突破和规模效应的显现。电池成本从千美元级降至百美元级,拉平了电动车与燃油车的价格鸿沟;智能驾驶和环保需求进一步激发了市场爆发,电动车渗透率进入指数级增长,改变了全球汽车产业的竞争格局。
中国新能源车销量与渗透率(2022年1月-2024年9月)
资料来源:乘联会,华兴证券
同样的,数据安全的平价路径清晰可见:技术突破和成本下降是核心驱动力。同态加密、密态计算、可信执行环境等技术正在加速优化,硬件加速和算法升级逐步降低高昂的计算成本。当数据安全技术普及到“所有人都用得起”的阶段,数据流通的规模将迎来真正的爆发。
数据安全平价的意义深远,它将解锁长期受制于隐私保护高成本的行业数据共享和大规模流通,推动跨行业合作、智能化决策、大模型训练等场景全面落地。届时,数据安全将从“高端奢侈品”变为“经济标配”,数据要素的真正潜力将被全面释放。
平价的本质,是打破成本壁垒,让技术成为市场的驱动者。光伏让能源自由,电动车让智能电动汽车普及,而数据安全平价将重构数字经济的底层逻辑,让数据流动无处不在。
需要指出的是,每一次技术变革的背后,都是一个行业的崛起。过去几十年,我们见证了在数据大规模存储时代,甲骨文等数据库巨头通过掌控存储技术奠定了数字化的基础;接着是数据大规模计算时代的爆发,AWS、阿里云等云计算领军者通过强大的计算能力重塑了全球信息产业格局。
而今天,我们正迈向数据大规模流通时代。这一转折点的到来,将催生出全新的行业和企业。正如数据库时代的存储技术巨头,云计算时代的计算服务巨头,未来的数据流通时代,将诞生一批新型科技服务企业,它们不仅解决数据安全、性能与成本的悖论,更将在数据的自由流通中,定义数字经济的新底座。
历史一次又一次证明,满足时代需求的企业,往往也掌握了未来的方向。未来,谁能在“安全、性能、成本”的平衡中找到最优解,谁就能在这个全新的时代里,掌握产业话语权,谁就找到了在数据大流通时代里扬帆出海的“船票”。数据流通时代,呼唤新的产业英雄。