数据要素是数字经济时代的重要资源。习总书记明确指出“网络安全和信息化是一体之两翼、驱动之双轮,必须统一谋划、统一部署、统一推进、统一实施。”在2022年1月,国务院发布《“十四五”数字经济发展规划》明确坚持“创新引领、融合发展,应用牵引、数据赋能,公平竞争、安全有序,系统推进、协同高效”的原则。这在加速推动数据产生更大的价值的同时,也亟须行业迅速提升数据安全、个人信息保护的安全水位。如何平衡数据要素的发展和个人信息的保护成为现实挑战。
过去两年,隐私计算成为解决数据安全和个人信息保护这一挑战的核心技术。经历了2020年的隐私计算技术元年和2021年的隐私计算应用元年,隐私计算技术在2022年将迎来大规模落地的需求。
我们判断:2022年,无论从法规要求还是技术成熟度上,整个数据流通领域将告别数据明文时代,即将开启“数据密态时代”的新征程。而要承载关系到国计民生各行各业的数据业务,数据密态技术必须要在性能、可靠性、成本、适用性和安全性上达到作为基础设施的关键指标要求。现有任何单一的技术都很难达到这样的要求,我们认为可信隐私计算将是未来能够助力行业、迎接数据密态时代挑战的重要技术方向。
以下将详细阐述数据要素行业正在到来的“密态时代”的特性、技术挑战和技术方向。
数据密态的必要性
数据流通对于国家信息化进程、产业数字化转型是必不可缺的,但直接的明文数据流通又有显著危害。数据与其他资产明显不同的是,很容易被拷贝复制。以前,为了便利数据生产加工和导入导出,许多应用系统常常直接基于明文数据进行开发和流通。在这个过程中,数据流过的每一家机构都有可能会拷贝一份明文数据。随着传播路径的扩散,拥有这份数据的机构越来越多。这些机构里任何一家出现数据滥用或者泄露问题都会产生严重影响。
这种情况下,数据规模化泄露的风险急剧增大,危害个人隐私安全甚至国家安全。
例如,2017年,由于美国境外人员大量位于军事基地,美国Strava软件公布的用户运动轨迹就泄露了军事基地的位置;再譬如,如2017年9月7日,美国征信巨头Equifax(艾克飞)因黑客入侵,导致约1.43亿人的个人信息被泄露;还有,2016年,大学生徐玉玉被诈骗了9900元的学费,导致其伤心过度去世,而被骗的主要原因是她助学金的相关信息泄露。
2014年2月27日在中央网络安全和信息化领导小组第一次会议上习总书记指出“没有网络安全就没有国家安全,没有信息化就没有现代化。建设网络强国,要有自己的技术,有过硬的技术”,我国后继也出台了多部法律平衡数据发展和信息安全之间的关系。
2017年实施的《中华人民共和国网络安全法》第十八条指出“国家鼓励开发网络数据安全保护和利用技术,促进公共数据资源开放,推动技术创新和经济社会发展。”同时也在第四十二条提出了要求“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。网络运营者应当采取技术措施和其他必要措施,确保其收集的个人信息安全,防止信息泄露、毁损、丢失。在发生或者可能发生个人信息泄露、毁损、丢失的情况时,应当立即采取补救措施,按照规定及时告知用户并向有关主管部门报告。”
2021年颁布的《数据安全法》第十六条、第二十七条在数据开发利用、数据安全、保护措施等方面提出了安全要求;《个人信息保护法》第五十一条明确要求个人信息处理者应当防止未经授权的访问以及个人信息泄露、篡改、丢失,在第三款指出需采取相应的加密、去标识化等安全技术措施。
同年出台的《个人信息保护法》中,共出现了27次“同意”来规范个人信息的使用。这27个同意构建了全新的“授权墙”。授权墙为公民的隐私权益构建了一个坚实的保障基础,是对个人隐私权益保障的一个巨大进步。但我们也要清醒的认识到,授权墙给数据要素的使用和价值流通也带来了诸多挑战。随着技术的进步,这些贯穿整个数据生命周期的挑战将在相当长的时间内持续存在。
面对数据要素发展和数据安全保护的双诉求,数据密态无疑是当前最好的选择。一方面,运营者要想“确保其收集的个人信息安全”,最简单有效的就是保证其数据明文不被其他方获得;另一方面,《个人信息保护法》规定了经过匿名化的信息不再受“授权墙”制约,但明文的匿名化数据会丢失个体粒度的信息,也就是说,如果要保持数据价值,匿名化后的数据也需要进行密态化处理。
从技术实现上看,随着技术的发展,支持数据全程以密态参与加工与流通的隐私计算在隐私保护方面有着独特的优势。在此基础上,可信隐私计算突破计算性能、稳定性、成本的瓶颈,助力行业正式迈向数据密态时代。
数据密态时代特征
目前,密态数据处理的规模,就和数据挖掘最初的时候差不多,只在少量、简单的场景有所应用。未来,密态数据处理的规模,也会像当年数据挖掘一样,迎来爆发性发展。
首先体现的是处理的场景会越来越多,深入到社会生产的方方面面。大多数场景都可以通过增加数据源提升效果,这些场景都会逐渐引入密态计算,也包括预测、推荐等很多实时场景。其次,处理的数据规模、机器学习模型的复杂程度也会逐渐增加,谋求更高的模型准确度,这也是明文机器学习发展的重要轨迹。最后,同一个场景的参与方也会越来越多,这样可以汇集更多维度的数据,达到更好的数据利用效果。
在这种情况下,我们认为,数据密态技术一定要达到作为广泛性业务基础设施的技术门槛要求,才能满足数据密态时代的要求:
第一,性能要足够高。在全场景覆盖、大数据、复杂模型的情况下,只有足够的性能才能满足需求。理想情况下,对于树模型这类中等规模的机器学习训练问题,性能要达到每小时处理亿级数据。
第二,足够稳定。在全场景覆盖、实时场景的情况下,密态计算要足够的稳定。密态计算要能够达到和其他基础设施一样的稳定性,在关键应用领域至少能够达到99.99%甚至更高。
第三,成本足够低。为了不对现有计算资源和网络资源造成严重冲击,密态计算的成本膨胀,与明文计算相比成本增长最好控制在一个数量级以内。
第四,适用性足够广。在全场景覆盖的情况下,密态计算必须要能够支持任意的处理逻辑。尤其是,要能够灵活支持不同的参与方数量。
第五,安全性足够高且达成行业共识。密态计算的安全性要足够高,客观上要能够抵御潜在的攻击。另一方面,在满足安全需求的情况下应选择性价比最高的方案,且该方案要能够得到行业共识。
数据密态时代现面临的技术挑战
挑战一:技术如何实现合规
第一,专数专用问题。
数据不是简单物品,数据复杂性超乎想象,它容易被复制、被加工。大部分数据合规问题的核心在于“专数专用”,即数据不能随意跨主体跨业务场景使用。
首先是理清楚首次收集数据的主体,然后是获得充分授权后数据的归属主体,有了这些才能明确各方的权利和责任。这是后面数据流转的基础。其次需要根据业务场景2B和2C的授权情况来限定数据的合规使用范围。在明文流通时代,这是很难被控制的。在数据密态时代,这可以通过密态技术来收口,有效的降低治理复杂度。
第二,个人信息授权问题。
个保法规定的27个同意形成了一道坚固的授权墙。尤其是,每一个业务场景需单独授权不能概括授权,这对数据使用的影响是天翻地覆的。今天人工智能是数据驱动智能,所有深度学习模型或者数字模型都需要无差别、无偏差数据才能训练出一个好的模型从而有效支持业务。但是在授权墙的影响下得到的数据很有可能是不理想的。例如,安全风控场景下,恶意人员一定不会授权你查他。现在法律许可下主要有两个路径,一是匿名化,一是执行合同的必须条件。在匿名化路径方向,我们认为数据“可算不可识”是行业发展必须要实现的一个平衡。
无授权场景要做好匿名化,在保证个人隐私权益前提下发挥数据价值;有授权场景下要专数专用,保障这个场景获得数据只在这个场景里使用。
第三,数据的使用和流通要做到可审计可举证。
隐私计算等技术在保护数据明文信息的同时也可能阻碍对数据实际使用范围的审计监控,实际使用中如果没有妥善的管控同样是可能导致侵犯用户隐私权益或者造成敏感信息泄露的。因此,审计和固证是非常重要作用。
挑战二:现有密态算法性能和组网可靠性严重不足的挑战
隐私计算技术的复杂程度是远远高于常见的密码算法。常见的密码算法只是对数据进行加密或者签名操作,要保护的对象是固定不变的,可以认为是对“静态的物质”进行保护。隐私计算要保护的是计算过程,要保护的对象是丰富多样的、运行中不断变化,可以认为是对“复杂生态”进行保护。后者的复杂性是远超前者的,不是一两个简单的算法就能够解决的。目前主要的隐私计算技术如下:
多方安全计算(MPC:Secure Muti-Party Computation)是指通过基于数学理论密码协议达到前述目标,一般包括秘密分享、混淆电路、不经意传输等,并与加法同态等配合使用。明文下的一个乘法在MPC中会膨胀到一个非对称密码运算、一次公网交互,前者耗时一般在1ns级别,而后者会达到10ms级别,两者差距非常大。允许批处理时可以进行一些优化,但剩余差距仍然有好几个数量级。
需额外说明的是,除法、比较等大量基础操作都是由乘法构成或者模拟出来的,也需要大量交互和计算。例如,一次两方机器学习训练的公网交互次数高达几万到几十万。
“MPC+中心预计算”在MPC的基础上引入中立第三方,以明文的形式做预计算。好处是不再需要非对称等计算消耗大的运算,但仍然需要公网传输,所以与明文的性能差距仍然非常大。另一个缺点是,当第三方与某个参与方共同作恶时,能够窃取其他方的数据,所以也存在安全隐患。
联邦学习(Federated Learning,FL)的底层也是采用MPC、加法同态等密码协议,但是会把一些看似和原始数据无关的过程使用明文进行计算,来提升性能。因为部分过程仍采用MPC等,所以耗时仍远远高于明文。另一方面,这些看似和原始数据无关的过程很有可能推导出原始数据,所以也有安全隐患。
可信执行环境(Trusted Execution Environment,TEE)能够基于硬件提供一个隔离的运行环境,其隔离性不受任何外部软硬件和人员的影响。各方可以放心地将数据汇聚到TEE中进行融合计算。这一切成立的前提是TEE相关技术被正确实现,且无漏洞。历史经验表明,TEE会出现安全漏洞,但是因为结构简单,出现漏洞的概率比较小、也比较隐蔽。TEE主要的安全风险在于物理临近攻击与侧信道攻击,特别是由这些风险衍生的供应链攻击问题。TEE要发挥好其安全价值,必须要与TPM/TCM等全栈可信技术更紧密的结合。
全同态(Full Homomorphic Encryption,FHE)支持在密文上直接进行计算,效果等同于在明文上进行计算再加密。缺点是其计算消耗远大于MPC,只适用于小规模问题或者特定问题。特别是其数据膨胀问题非常严重,也是业界面临的普遍难题。
总结一下:TEE以外的技术路线都有非常大的计算消耗或者公网传输消耗(或两者都有)。这些问题,一方面会导致性能严重不足;另一方面,大量的公网交互还会导致稳定性难以保障。而且,部分技术路线还存在安全隐患。TEE的主要问题是存在供应链攻击等安全隐患。
面对这些新挑战,我们看到行业的讨论非常多,各个行业对隐私计算都非常看重。数据是当今数字化业务的血液,数据背后业务太复杂、数据使用方式太复杂、规模太复杂,不是哪一项技术能解决所有问题,我们相信未来是多项技术相融合来解决这些复杂挑战,而可信隐私计算是其中最有希望的技术方向。
可信隐私计算是数据密态时代关键技术
我们认为,隐私计算往前走、进一步落地给产业,并满足合规要求,非常重要的方向是“可信隐私计算”。
可信隐私计算的核心是在隐私计算的技术体系以及技术实现层面提供可信支撑,对个人信息和敏感数据提供高效的、全生命周期的安全合规保障。业界可以在可信隐私计算的框架下有效地解决当下面临的合规、业务支撑、安全适用等挑战。
隐私计算拥抱可信技术的三个需求:
第一,受控匿名化,需要可信。
匿名化,是指个人信息经过处理无法识别特定自然人且不能复原的过程。匿名化后的数据不再属于个人信息。但开放空间中,绝对匿名化将导致个体颗粒度数据要素价值绝对的毁损。
绝对匿名化是实现不了数据价值的。在机器学习建模等数据利用的方式中,数据都是以个体粒度出现的,通过其多个属性信息来推测未知信息。这种情况下,开放空间中的绝对匿名化和数据要素价值是两个不可调和的对立面。数据要产生数据价值,属性就需要含有个体信息,并且与其他个体区分度越高就越有价值。这样,攻击者通过属性就能判断所属身份的范围,综合多个属性就能确定具体的身份。遗憾的是,即便我们把属性信息进行充分模糊化,也难以避免这个问题。例如,极端情况下每个属性信息都模糊到只剩1比特,如果这些属性互不相关,只需33个属性就可能定位到具体的某个人(2^33=80亿,全球人口数)。学术界和工业界数十年来的研究和实践也不断验证了这个观点,成为行业共识。
相对匿名化是现实可行的技术。因此,在绝对匿名化无法满足行业需求的情况下,相对匿名化逐渐成为了公认的出路。相对匿名化的核心在于限定匿名化数据(包括身份去标识与属性密态化等)的使用范围,严格禁止其与外部其他信息进行关联。因此,我们需要对各个数据通道进行管控,对受控匿名化环境中对数据的存储、传输、计算过程和研发过程的中间数据,都做严格管控。特别是综合利用动态采样K匿名、差分隐私噪音、泛化/有效位截断等防止精度过高(精度过高会导致有机会推算出哪些原始数据参与了运算)等手段防止中间数据导致的潜在信息泄露。输入的数据也可以视情况进行区间化,弱化属性数据和个体之间的关联关系。
相对匿名化必须要结合受控环境进行使用。即相对匿名化后的数据只能在受控环境中使用,而不能流出受控环境。
可信计算技术是实现上述受控环境的非常好的一个选择,它的强隔离性使得我们不用担心数据从受控环境中流出。另外,可信计算技术还提供远程验证功能,参与方能够从网络上确认远端的设备是否使用符合要求的可信计算技术,以及在隔离环境中运行的应用是否符合要求。远程验证使得参与方能够控制数据的处理、输出方式,从而进一步确保数据安全可控。
我们认为,在受控环境下的相对匿名化,实现可算不可识,是对个人信息保障的关键核心技术之一。
第二,关键性业务支撑,需要可信。
目前计算过程需要跨广域网的密态计算方法(以下简称跨网密态计算,包括使用公网线路或者拉专线等场景)有以下几个难以克服的缺点:
大量的基础运算都需要公网交互。公网交互的时间消耗是远远高于明文计算的。即便能够进行一定程度的优化,剩余的差距仍然非常巨大。
频繁的公网交互会带来稳定性问题。公网因为客观原因其稳定性很难改善。而跨网密态计算的公网的交互次数、交互拓扑都远高于一般应用,导致稳定性保障难度也远高于一般应用。
支撑大量数据交互的广域网带宽成本非常昂贵,实际达成的成本将非常高。跨网密态计算需要在不同的机构内部部署计算节点,而其间的公网带宽的购买将是一笔巨大的成本,甚至远超节点硬件费用。
综合来看,跨网密态计算很难满足密态时代的要求。
我们认为,未来的大数据量、关键业务的密态计算应以同网密态计算为主。同网密态计算不会有“跨广域网”产生的性能开销、稳定性问题、成本问题等。另一方面,在不受“公网”制约后,同网密态计算可以使用芯片、高速传输技术等大幅提升性能。
目前同网密态技术主要有三种:可信执行环境、全同态加密计算、可信密态技术。可信执行环境和全同态加密恰巧位于性能的两个极端,前者非常快,但因为安全隐患而使用场景受限;后者非常慢,适用场景非常少。两者都不能很好的满足密态时代的要求。
可信计算和密码技术相融合能够显著提升综合能力。在可信计算技术中引入密态计算技术,让可信执行环境中运行的是密文数据,大幅提升安全性。这也是蚂蚁集团努力推进的可信密态技术。可信密态技术有机地融合了可信计算技术与多方安全计算等密码学技术,将数据提供方和数据计算方分离,在安全可信的环境中实现基于密文的计算。它通过多个高速互联(内网)的可信执行环境联合执行密码协议,对任意多个参与方提供隐私计算能力。它在可信执行环境中出现的也是密态数据,它的安全性较可信执行环境有显著提升;它不需要像跨网密态计算技术一样进行频繁的公网交互,也没有大幅的计算量膨胀。
可信密态计算的性能、可靠性、成本、适用性都较跨网密态技术有非常大的提升,安全性也有坚实的保障。
第三,标准测评需要可信。
目前因为隐私计算技术性能严重不足,人们会采取各种不同的方法通过牺牲安全性换取性能。再加上隐私计算技术有多种底层机制,以及它们之间不同的融合方式,导致隐私计算技术路线特别多。各个技术路线的安全性差异特别大,社会认知也比较模糊。为了产业的健康发展,行业对各个产品的安全性给出准确评估是至关重要的。
我们同时也清醒的认识到,在实际的系统中,必然涉及到密码学、代码安全、网络安全、AI算法安全等多个层面的复杂安全问题。其中一部分可以进行形式化证明,但无法对所有环节和所有属性进行形式化证明。但这也是今天我们大部分技术场景面临的安全挑战,甚至在密码学设计本身也是如此。
我们回归安全基本原则。首先安全的核心是对抗,对抗是多维度的、持续的。承载着行业数据命脉的关键基础性技术必须清晰的分析面对各种已知和潜在攻击的安全强度,这需要行业安全专家的广泛介入;其次,一定需要根据场景安全分类分级,不能用一个指标锁死各行各业不同业务的安全水位要求。
除了要保证隐私计算产品的安全性,使用过程中的存证和审计也是必不可少的。通过对输入数据、计算行为进行存证,可以有效的扼制投毒、滥用的情况。
隐私计算可审计可举证也需要可信支撑。采用可信计算技术能够防止存证行为被绕过。采用区块链可以帮助固化存证证据,防止存证的结果被恶意删除、修改。这些也需要行业有可信的标准和测评来规范化发展。
总结
我们相信数据明文流通的时代在离我们远去,安全隐私也从行业奢侈品变成必需品。这一切都在加速推动全行业迈向数据密态时代。而为了达到数据密态时代所需要的性能、可靠性、成本、适用性和安全性的要求,我们认为“可信隐私计算”是最有希望的技术方向。将可信技术与隐私计算技术相融合,将软硬件技术相融合,能够更好的助力行业迈进数据密态时代。
过去两年,蚂蚁集团和国内同行们在隐私计算技术上做了很多工作。隐私计算的专利TOP10榜上两年前大部分是外国公司,非常高兴这两年国内伙伴多了起来。蚂蚁集团也希望通过行业共建,和大家一起迈向“数据密态时代”,实现习总书记“网络安全和信息化是一体之两翼、驱动之双轮”的要求和期待。