本文来自企鹅号“IT之家”。
OpenAI最新的语言模型GPT-4不仅能够像人类一样生成各种文本,还能够设计和执行测试来评估和改进自己的表现。这种“反思”技术让GPT-4在多项难度较高的测试中,都取得了显著的进步,测试表现提升30%。
GPT-4是继GPT、GPT-2和GPT-3之后,OpenAI推出的最先进的系统,也是目前最大的多模态模型(可以接受图像和文本输入,输出文本)。其利用深度学习技术,使用人工神经网络来模仿人类的写作。
研究人员诺亚・辛恩(Noah Shinn)和阿什温・戈平纳特(Ashwin Gopinath)在论文中写道:“我们开发了一种新颖的技术,让AI代理能够模拟人类的自我反思,并评估自己的表现。GPT-4在完成各种测试的时候,会增加一些额外的步骤,让它能够自己设计测试来检查自己的答案,找出错误和不足之处,然后根据发现来修改自己的解决方案。”
在HumanEval编码测试中,GPT-4使用自我反思环路,准确率从67%上升到88%
GPT-4可以通过设计和执行测试来批判其自身的性能,如AlfWorld测试结果所示,可以大大改善其性能
研究团队使用这种技术对GPT-4进行了几种不同的性能测试。在HumanEval测试中,GPT-4需要解决164个从未见过的Python编程问题,原本准确率为67%,使用反思技术后,准确率提升到了88%。在Alfworld测试中,AI需要在各种不同的交互环境中,通过执行一些允许的操作,来做出决策和解决多步任务。使用反思技术后,GPT-4的准确率从73%提高到了97%,只有4个任务失败。在HotPotQA测试中,GPT-4可以访问维基百科,并回答100个需要从多个支持文档中解析内容和推理的问题,原本准确率为34%,使用反思技术后,准确率提高到了54%。
这项研究表明,AI问题的解决方案有时候是依赖AI本身。IT之家发现,这有点像生成对抗网络,这是一种让两个AI互相提高技能的方法,比如一个AI试图生成一些看起来像真实图片的图片,另一个AI试图分辨哪些是假的,哪些是真的。但在这种情况下,GPT既是写作者又是编辑,通过自我反思来改进自己的输出质量。