如何让“机器不学习”?学会“遗忘”将使新一代AI更出色

张磊/编译
由大型语言模型(LLM)支撑的新一代AI聊天机器人能根据用户的提示生成文本。这些模型是在大量数据的基础上训练出来的,其中大部分数据抓取自互联网上的公开信息。由此,它们学会了预测句子中最有可能出现的下一个词,从而流利地回答每一个问题。

640 (1).png

本文来自文汇网,作者:张磊/编译。

由于人们担心人工智能(AI)驱动的聊天机器人可能会泄露私人数据,计算机科学家们正努力教机器学习模型如何遗忘。虽然这非常困难,但“机器不学习”的解决方案已经开始出现。这项工作除了能解除人们对隐私和错误信息的担忧外,还能起到一个至关重要的作用——如果我们真的想让AI像人类一样学习和思考,可能需要让它们学会遗忘。

被遗忘权

由大型语言模型(LLM)支撑的新一代AI聊天机器人能根据用户的提示生成文本。这些模型是在大量数据的基础上训练出来的,其中大部分数据抓取自互联网上的公开信息。由此,它们学会了预测句子中最有可能出现的下一个词,从而流利地回答每一个问题。

与此同时,这也意味着当大模型学习到某些东西时,就无法取消学习。澳大利亚最大的国家科研机构联邦科学与工业研究组织的AI研究员兼工程师张大卫说,大语言模型根据汇总数据生成回复,因此它们无法像谷歌等搜索引擎那样轻松地遗忘或“删除”特定信息,甚至个人也无法准确追踪AI应用程序对自己的了解程度。

这在隐私方面造成一个重大问题。2018年生效的《欧盟通用数据保护条例》(GDPR)规定用户享有“被遗忘权”,即当用户要求企业清除和停止传播个人的隐私信息时,企业应当采取合理措施,及时销毁用户的个人数据,否则将面临巨额处罚。

瑞士苏黎世联邦理工学院的计算机科学家弗洛里安·特拉梅尔认为,大模型公司必须想办法解决这个问题,尤其是当这些公司开始用更敏感的信息对大模型进行训练。

更令人担忧的是,由AI驱动的聊天机器人本身也很容易受到攻击。已有研究证明,一些黑客技术可以让聊天机器人在用户设备上远程运行代码,或要求用户提交银行账户信息。

诱导“失忆”

机器学习模型对数据有很强的依赖性,尤其像ChatGPT这样拥有海量训练数据和千亿级参数的大型AI系统,面对用户频繁的删除请求,重新训练整个模型会消耗巨额资源。

那么,是否能在不用重新训练模型的情况下,移除或至少屏蔽特定信息呢?

2019年,加拿大多伦多大学的尼古拉斯·帕贝尔诺及其同事提出了一种被称为SISA的方法——它将数据集分割成不同小块,分别对每个小块进行模型训练,并像游戏一样保存节点进度,再合并结果。当遇到取消学习请求时,它可以返回节点,切断相关数据块,再从那里开始重新训练。经测试证明,这种方法大大加快了重新训练速度。

由于删除数据会严重影响机器学习模型的性能,一些团队选择了隐藏或遮蔽相关数据的策略。例如,微软和美国俄亥俄州立大学的研究人员在用于训练模型的数据中引入了噪音,使大模型随后输出的信息由数据中更泛化的模式,而不是特定的、可识别的例子所决定。这从理论上保证了大模型不会透露训练数据中的个人信息。

但是,这种泛化往往会在一定程度上削弱AI的学习能力。为了规避这个问题,韩国科学家尝试了一种“知识解除学习”的方法,其目的是扭转某项数据对算法的影响,而不是完全删除它,这样聊天机器人就永远不会引用它。目前,这一方法是该领域最有前途的方法之一,因为它能在更短时间内使用更少的计算资源完成工作。

为了激励研究人员提出更高效的解决方案,谷歌公司还组织了一场竞赛。这不仅表明这项挑战的重要性,也意味着或许我们将找到更多好方法,让新一代大模型拥有“遗忘”的能力。

选择性记忆

英国伦敦政治经济学院研究人工智能的哲学家阿里·博伊尔认为,虽然人类的遗忘倾向通常被视为认知缺陷,但有时也是有益的——通过遗忘,人们可以更有效地检索有用的记忆。

AI系统可能也是如此。2017年,谷歌DeepMind公司的研究人员开发了一种可以玩多种电子游戏的人工智能系统。通过存储并回忆自己玩游戏的记忆,它能更有效地归纳出知识。当研究人员改进了模型,使其优先存储和回忆一部分事件而忘记其他数据时,系统性能得到了提高。

这意味着,选择性遗忘可以提高人工智能的性能,而关键是在记忆过多和过少之间找到适当的平衡点。如果AI研究人员的最终目标是建立能像人类一样学习和思考的系统(这也是该领域的最初目标之一),那么他们就必须要设计出能选择性遗忘的系统。在博伊尔看来,遗忘不是设计缺陷,而是一个高效、运作良好的记忆系统的必要特征。

文:张磊/编译

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论