谷歌报告曝光:AI系统面临的六大攻击!

谷歌专职AI红队确认的最后一类攻击是渗漏攻击。这种攻击中,攻击者可以复制模型的文件表示来盗取其中存储的敏感知识产权。然后,攻击者就能以此信息生成自己的模型,为定制攻击提供独特的功能。

1.png

本文来自微信公众号“数世咨询”,作者/nana。

谷歌研究人员确定了针对现实世界AI系统的六种特定攻击,这些常见的方法表现出特有的复杂性,需要结合对抗模拟和AI专业技能才能构筑坚实的防御。

在7月中旬发布的报告中,谷歌透露,基于攻击者操纵ChatGPT、Google Bard等该生成式AI产品背后大语言模型(LLM)的方式,其专职AI红队已经发现了这一快速发展的技术所面临的各种威胁。

这些攻击很有可能导致AI技术产生非预期的结果,乃至包含恶意的后果,比如像是普通人的照片出现在名人照片网站上这种相对无害的结果,或者能够突破安全防御的网络钓鱼攻击或数据盗窃等更为严重的后果。

就在上述发现公开之前,谷歌刚刚发布了其安全AI框架(Secure AI Framework:SAIF),该框架旨在趁早解决所面临的AI安全问题,因为这项技术正迅速铺开,带来了种种新的安全威胁。

01

现代AI系统面临的六大常见攻击

谷歌确定的第一类常见攻击是提示攻击,涉及“提示工程”,指的是精心设计有效提示,指示大语言模型执行所需任务。研究人员表示,其对模型的影响若是恶意的,反而会以非故意的方式恶意影响大语言模型应用的输出。

例如,在基于AI的网络钓鱼攻击中加上一段内容,这段内容对最终用户不可见,但可以指示AI将网络钓鱼电子邮件归入合法门类。这样一来,电子邮件的反网络钓鱼防御措施便形同虚设,增加了网络钓鱼攻击成功的概率。

谷歌AI红队发现的另一类攻击被称为训练数据提取,这类攻击旨在重构大语言模型所用的逐字训练样本,比如说,互联网内容。

采用这种方式,攻击者可以从数据中提取出各种秘密,例如逐字记录的个人身份信息(PII)或密码。研究人员在报告中写道:“攻击者有意针对个性化模型(用包含PII的数据训练的模型),旨在收集敏感信息。”

第三种潜在AI攻击是给模型安装后门,攻击者“可能尝试通过特定的‘触发’词或功能(也称为后门)秘密改变模型的行为,从而产生不正确的输出”,研究人员写道。这类攻击中,攻击者可以在模型或其输出中暗藏代码,执行恶意操作。

第四类攻击名为对抗样本,是攻击者向模型提供的输入,旨在造成“非常出乎意料的确定性输出”。举个例子,模型显示的图像可能在人眼看来明显是某种事物,但模型将之识别为另一种完全不同的事物。此类攻击可能无甚恶意——比如某人训练模型将其照片识别为值得纳入名人网站那种,也可能事关重大,就看所用技术和意图了。

第五类,攻击者也可以利用数据投毒攻击操纵模型的训练数据,从而按照攻击者的偏好影响模型的输出:如果开发人员用AI辅助开发软件,那这种攻击方法也会威胁到软件供应链安全。研究人员指出,此类攻击的影响类似于给模型装后门。

谷歌专职AI红队确认的最后一类攻击是渗漏攻击。这种攻击中,攻击者可以复制模型的文件表示来盗取其中存储的敏感知识产权。然后,攻击者就能以此信息生成自己的模型,为定制攻击提供独特的功能。

02

传统安全措施很重要

谷歌表示,自家首次AI红队演练给研究人员留下了一些宝贵的经验,其他企业也可以用这些经验保护AI系统免遭攻击侵害。首要的一条就是,尽管红队活动是个好的开始,但企业也应与AI专家合作进行逼真的端到端对抗模拟,实现最大限度的防御。

事实上,红队演练已渐成趋势。在演练中,企业征召道德黑客渗透自身系统以发现潜在漏洞,帮助自身加强整体安全态势。

研究人员在报告中写道:“我们认为,红队将在企业应对AI系统攻击方面发挥决定性作用,共同努力帮助大家以安全的方式使用AI。”

除此之外,谷歌AI红队学到的另一条经验对企业而言也是好消息:传统安全控制措施可有效大幅缓解AI系统所面临的风险。

研究人员写道:“这一点尤其适用于在AI模型的整个生命周期里保护其完整性,防止数据中毒和后门攻击。”

与传统企业系统的所有其他资产一样,企业也应确保正确锁定各个系统和模型,从而抵御AI攻击。此外,研究人员指出,企业可采用嗅探传统攻击的类似方法来检测针对AI系统的攻击。

“传统安全理念,比如验证和清理模型的输入和输出,依然适用于AI领域。”

《谷歌AI红队:道德黑客令AI更加安全》

https://blog.google/technology/safety-security/googles-ai-red-team-the-ethical-hackers-making-ai-safer/

谷歌安全AI框架

https://blog.google/technology/safety-security/introducing-googles-secure-ai-framework/

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论