本文来自微信公众号“GoUpSec”。
随着AI生成内容在教育、软件开发和社交媒体网络新闻领域的泛滥,准确识别和溯源AI文本对于内容安全和版权保护的重要性与日俱增。但是,准确识别AI生成内容始终是生成式人工智能领域久攻不下的难题之一。
近日,谷歌DeepMind研究团队开发出一款名为SynthID-TextAI的文本水印技术,可用于标记人工智能系统(AI)生成的文本。这一水印系统首次在大规模的实际应用中投入使用,覆盖数百万用户,引起了广泛关注。
这款水印工具可“无痕”嵌入在文本生成过程中,并通过一组加密密钥检测AI生成内容,在AI文本识别领域实现了重要的技术突破。
AI内容识别的重大意义
区分AI生成文本的能力已成为应对假新闻、学术作弊等问题的重要工具,同时有助于避免AI模型“自我污染”——即通过AI生成内容训练AI模型,导致内容失真。
在一次史无前例的大规模测试中,谷歌的Gemini大型语言模型(LLM)生成的2000万条回复中,含水印文本的质量评级与无水印文本相当。这一成就令业界感到兴奋,马里兰大学的计算机科学家Furong Huang指出:“谷歌采取这一步对于科技社区来说是令人振奋的,相信未来大多数商业工具都会采用类似的水印。”
文本水印比图像水印难得多
在文本生成过程中加入水印比图像水印更具挑战性。DeepMind团队采用的SynthID-Text水印技术,通过在词汇选择上加入隐秘但有规律的调整,利用加密密钥将每个可能的词汇标记为候选选项。这些选项会在一系列“锦标赛”中进行对比,最终“获胜”的词汇将用于文本生成。这种“锦标赛”过程如同解锁一个密码锁,每一轮比赛代表锁中的一位数字,显著增加了水印被篡改或删除的难度。
剑桥大学计算机科学家Zakhar Shumaylov评价称,SynthID-Text在检测效率和生成速度方面领先于同类水印技术。相较其他方法,该水印既不减慢文本生成速度,也便于通过加密密钥检测,使其成为目前效果较佳的文本水印方案之一。
SynthID-Text系统的竞标赛采样方法不仅提升了水印的抗干扰性,也提高了水印的“不可擦除”性。研究人员测试发现,即便通过另一AI模型对带水印文本进行改写,该系统依然能够识别出隐藏水印。这种抗干扰性对于内容较长的文本尤其显著,而在较短文本中则表现稍弱。这种设计让删除水印的难度大大增加,也使得伪装成AI生成文本的“假水印”操作更为困难。
DeepMind的科学家Pushmeet Kohli认为,这款水印工具的初衷是鼓励良性使用。“我们希望开发出一个可以由社区不断优化的工具,协助AI模型在实际应用中更加合规。”他表示。
如何让水印不再脆弱?
在AI内容安全性领域,水印的韧性及其在抵御“恶意攻击”方面的表现受到关注。
尽管水印技术有助于规范AI生成内容的使用,但如何应对蓄意去除水印的行为仍是一大难题。苏黎世联邦理工学院的研究指出,任何水印都可能面临“洗白”风险,即通过技术手段去除或伪造水印。此外,政府正着力将水印作为规范AI内容的核心手段,但如何协调开发者自愿加入,以及在全球范围内标准化实施,依然存在政策层面的挑战。
帝国理工学院的计算机科学家Yves-Alexandre de Montjoye表示:“在AI安全框架下,水印技术的实际保护力度尚待验证。”
参考链接:
https://www.nature.com/articles/d41586-024-03462-7
ttps://www.nature.com/articles/s41586-024-08025-4