应对注入攻击,Cloudflare 在大模型前设置防火墙!

陈发明
为迎接大模型应用的安全风险挑战,Cloudflare发布了一项“人工智能防火墙”服务,该服务专门为云和安全服务商的高级企业客户提供应用安全服务。客户在将来能够“创建自己的定制指纹”,并且可以根据自身的需求自由选择是否公开模型可以或者不可以提供的信息。

640 (1).png

本文来自微信公众号“数世咨询”,作者/陈发明。

为迎接大模型应用的安全风险挑战,Cloudflare发布了一项“人工智能防火墙”服务,该服务专门为云和安全服务商的高级企业客户提供应用安全服务。客户在将来能够“创建自己的定制指纹”,并且可以根据自身的需求自由选择是否公开模型可以或者不可以提供的信息。

该服务基于其Web应用防火墙(WAF),客户可以在Cloudflare仪表板的WAF部分找到两个功能高级速率限制和敏感数据检测功能设置,为使用大型语言模型的应用程序增加了保护功能。

第一个功能是高级速率限制允许客户制定一种策略,该策略规定了在特定会话期间,基于单个IP地址或API密钥的执行请求限制其最大速率。这样做是为了防止分布式拒绝服务(DDoS)攻击等可能影响大语言模型的处理性能,从而破坏其处理合法请求的能力。

第二个功能是敏感数据检测,它可以防止大语言模型在响应查询时泄露机密数据。它还允许客户设置WAF规则,以扫描信用卡号等金融信息和API密钥等机密信息,以确保这些敏感细节不会出现在大语言模型的响应中。

遗憾的是,目前还没有一个防火墙规则来阻止语言模型发布不良或虚假信息。

特色功能

1、在接下来的几个月中,Cloudflare计划测试一个名为“提示词验证”的测试版功能。该功能将有助于防止“提示注入攻击”,用户可以设计提示词来防止大语言模型创建不适当或者非法的内容。

2、这项功能正在开发中,它会分析每一个提示词,并对它们进行评分,以确定它们是否可能对大语言模型构成攻击。此外,它也会根据预设的类别来标记提示词。评分范围从1到99,数字越高表示提示词注入攻击的可能性越大,反之则越小。

3、客户可以根据评分创建WAF规则来阻止或允许请求,并且可以将此评分与其他指标(例如机器人或攻击分数)相结合,以确定提示词是否发送到大语言模型。

4、允许客户在遇到被视为冒犯性、涉及宗教、性或政治等敏感话题的提示词时,阻止特定主题的内容生成。

部署方式:防火墙可以部署在任何大语言模型之前。这包括众所周知的公共大语言模型工具,例如OpenAI的GPT和Anthropic的Claude,以及专为内部使用而设计的私有大语言模型。作为产品或服务的一部分销售给客户的模型也在保护范围之内。

Cloudflare的产品经理Daniele Molteni表示,人工智能防火墙可以部署在各种大语言模型前面,无论这些模型是托管在Cloudflare Workers AI平台上,或者是其他平台或主机提供商。唯一的要求是,所有的请求和响应都必须通过Cloudflare的代理。

Cloudflare对AI安全的关注是对一系列大语言模型错误和安全问题的回应。随着科技巨头推动将大语言模型嵌入其许多产品和服务中,结果往往包括错误和捏造,有时甚至可能涉及潜在漏洞的代码。

为了解决这些新兴的安全问题,一些开发者采取了一种针对人工智能的安全方法(Cloudflare将其称为防御型人工智能框架),而谷歌和其他公司则扩展了其漏洞赏金计划,将人工智能产品和大语言模型攻击纳入其中。

考虑到这项技术本身以及保护其免受攻击的策略都还处于初级阶段,可以预见在大型厂商的旗舰会议(大型知名品牌会议)即将到来之季,人工智能和大语言模型安全领域将会出现更多的话题和炒作。因此,预计RSA和黑帽大会上将会围绕这个话题展开大量讨论。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论