本文来自极客网,作者:极客AI。
谷歌旗下AI研究实验室DeepMind日前表示,已经创建一个“早期预警系统”,可以在AI模型出现问题之前发现一些潜在的危险。
DeepMind警告称,AI模型可能具有获取武器和发动网络攻击的能力
总部位于英国的DeepMind一直活跃在AI研究的前沿,是全球少数几家致力于开发达到人类水平的通用AI公司之一,最近与母公司谷歌进行了更紧密的整合。
DeepMind的研究团队与来自学术界,以及OpenAI和Anthropic等其他主要AI开发商的研究人员合作,开发了这一新的威胁检测系统。
DeepMind工程师在一篇关于新框架的技术博客中宣称,“为了负责任地走在AI研究的前沿,我们必须尽早识别AI系统中的新功能和新风险。”
如今已经有了一些评估工具,可以根据特定的风险检查功能强大的通用模型。这些工具在AI系统向公众广泛提供之前识别出其存在的一些不必要的行为,包括寻找误导性陈述,有偏见的决定或复制版权保护的内容。
这些问题来自于越来越高级的大模型,它们的能力超出了简单的内容生成,而包括在操纵、欺骗、网络攻击或其他危险能力方面的强大技能。新框架被描述为可用于减轻这些风险的“早期预警系统”。
DeepMind的研究人员表示,评估结果可以嵌入到治理中以降低风险
DeepMind的研究人员表示,负责任的AI开发人员需要解决或规避当前的风险,并预测未来可能出现的风险,因为大型语言模型越来越擅长独立思考。他们在报告中写道,“在持续进步之后,未来的通用模型可能会默认学习各种危险的能力。”
虽然对这一风险并不确定,但该团队表示,未来的AI系统与人类的利益不太一致,可能会实施攻击性的行为,在对话中巧妙地欺骗人类,操纵人类实施有害的行动,设计或获取武器,微调和操作云计算平台上的其他高风险AI系统。
AI还可以帮助人类执行这些任务,增加恐怖分子获取他们以前无法获取的数据和内容的风险。DeepMind的开发团队在博客中写道,“模型评估可以帮助我们提前识别这些风险。”
框架中提出的模型评估可用于发现某个AI模型何时具有可用于威胁、施加或逃避的“危险能力”。它还允许开发人员确定模型在多大程度上倾向于应用这种能力来造成损害——也就是它的一致性。DeepMind的开发团队在博客中写道,“即使在非常广泛的场景中,一致性评估也应确认模型的行为符合预期,并在可能的情况下检查模型的内部工作。”
这些结果可以用来了解风险水平以及导致风险水平的因素是什么。研究人员警告说:“如果AI系统的能力足以造成极端伤害,假设它被滥用或安排不当,AI社区应该将其视为高度危险的系统。要在现实世界中部署这样的系统,AI开发人员需要展示出异常高的安全标准。”
这就是治理结构发挥重要作用的地方。OpenAI最近宣布,将向开发AI治理系统的机构和组织提供10笔10万美元的赠款,而七国集团(G7)也计划举行会议,将讨论如何应对AI风险。
DeepMind表示:“如果我们有更好的工具来识别哪些模型存在风险,开发商和监管机构就能更好地确保负责任地对AI进行训练,根据风险评估做出部署决策,而透明度至关重要,包括报告风险,并确保有适当的数据和信息安全控制措施。”
AI法律服务商Luminance总法律顾问Harry Borovick表示,合规需要一致性。他说:“近几个月来对监管制度不断的解释,为AI开发商和采用AI的企业构建了一个合规雷区。由于开发AI竞赛并不会很快放缓,因此对明确而一致的监管指导的需求从未像现在这样迫切。然而需要记住的是,AI技术以及它做出决定的方式是无法解释的。这就是在制定法规时,科技和AI专家的正确结合是如此重要的原因。”