现在,许多企业会收集越来越多的敏感数据,不可避免地会遭遇数据泄露的问题,隐私成为当下科技界备受关注的一个热门话题。隐私是指个人有权利控制或影响其信息如何被收集、使用和存储,以及谁可以披露这些信息、如何披露。第三方不得通过某人提供的数据直接追溯其身份,或者通过统计信息来追溯。这最后一个要求使企业难以收集和分析用户数据以洞察用户行为、改进决策流程以及衡量产品、临床试验或广告活动的效果。
为了继续使用这些数据,遵守CCPA和GDPR等数据隐私和保护法规,并避免因违规而挨罚,许多组织纷纷采用隐私增强技术(Privacy Enhancing Technology,简称“PET”)。PET可确保个人或敏感信息在整个生命周期内保持私密性。PET涵盖一系列广泛的技术,旨在遵守隐私和数据保护原则,同时保持从用户提供的数据中提取价值的能力。为此,大多数PET采用的方法是,使用加密和统计技术来混淆敏感数据,或减少所处理的实际数据量。
以下是一些最常见的加密和统计PET及其用途。
加密隐私增强技术
•差分隐私
差分隐私将处理过的干扰信息添加到数据集,这样既可以识别数据集中的组模式,同时保持个人的匿名性。这使得庞大数据集可以发布用于公共研究。科技公司也使用差异隐私来分析大量用户数据,并从中获得洞察力。
•同态加密
同态加密能够对加密数据进行计算操作。任何分析的结果都保持加密状态,只有数据所有者才能解密和查看。这种加密方法使企业能够分析云存储中的加密数据,或与第三方共享敏感数据。谷歌已发布了开源库和工具,对加密数据集执行同态加密的操作。
•安全多方计算(SMPC)
安全多方计算(Secure multiparty computation,简称“SMPC”)是同态加密的一个子领域,将计算分布到诸多系统和多个加密数据源上。这项技术确保任何一方都看不到整个数据集,并限制了任何一方可以获得的信息。OpenMined在其PyGrid对等平台中使用SMPC,用于私密数据科学和联合学习。
•零知识证明(ZKP)
零知识证明(Zero-Knowledge Proof或Zero-Knowledge Protocol,简称“ZKP”)是一组加密算法,可以在不泄露证明信息的数据这种情况下验证信息。它在身份认证中起到了至关重要的作用。比如说,可以使用ZKP验证某人的年龄,而不透露其实际出生日期。
统计隐私增强技术
•联合学习
联合学习是一种机器学习技术,它使单个设备或系统能够协同学习共享的预测模型,同时将数据保存在本地。比如说,手机下载当前模型,通过学习手机上的数据来改进该模型,然后仅将汇总后的变更内容上传到集中式模型。之后,变更内容结合其他设备上的更新内容,改进共享的模型。联合学习减少了需存储在集中式服务器或云存储的数据量。谷歌在安卓的Gboard中使用了联合学习。
•生成式对抗网络(GAN)
生成式对抗网络(GAN,Generative Adversarial Networks,简称“GAN”)生成模拟真实数据集的新合成数据实例。这种方法为分析人员、研究人员和机器学习系统提供了大量高质量的合成数据。GAN识别数据中复杂模式的能力被用于快速发现医疗测试和网络流量中的异常情况。
•假名化/混淆/数据屏蔽
多种方法可以用来通过将敏感数据与虚构性、分散注意力或误导性的数据相结合,从而替换或隐藏敏感信息,包括假名化、混淆和数据屏蔽等方法。这是企业用来保护用户的敏感数据、遵守隐私法规的一种常见做法。但是某些匿名化措施(比如仅仅删除含有个人身份信息即PII的列或屏蔽数据),可能会使处理后的数据仍有机会通过“再识别”还原信息,从而追踪到提供数据的个人。
•设备端学习
可以分析用户在设备端的操作来识别模式,无需将个人数据发送到远程服务器。设备端学习可用于使算法更智能化,比如自动更正。苹果的Face ID就使用设备端学习来收集有关用户脸部不同外观的数据,因此其识别方法更准确更安全。
•合成数据生成(SDG)
合成数据生成(Synthetic Data Generation,简称“SDG”)是从具有相同统计特征的原始数据集中人工创建的数据。由于SDG数据集可能远大于原始数据集,除了用于人工智能和机器学习外,这项技术还用于测试环境,以减少数据共享和所需的实际数据量。
结语
PET是多方共享和分析数据的一种安全方式,这对用户、组织和社会具有巨大的潜在好处,因为高质量数据的可访问性和可用性是创新的第一步。PET已经用于不同方面,比如应用程序和系统测试,尤其是在物联网、金融交易和医疗保健服务等领域。
英国数据伦理和创新中心已发布《PET采用指南》,旨在帮助组织考虑PET如何为数据驱动的创新带来机遇。负责监督GDPR执行的欧洲数据保护委员会和欧盟网络安全管理局也发布了技术指南,支持SMPC作为一种有效的隐私保护措施,并列出了在医疗保健和网络安全领域的用途。