本文来自微信公众号“学术头条”,【作者】Nicola Jones,自由科学记者、作家和编辑,【编译】陈小宇。
继谷歌去年12月发布Gemini Deep Research之后,ChatGPT母公司OpenAI于日前推出了一款类似产品——“Deep Research”,该产品能够综合数百个网站的信息进而生成长达数页的引文报告,充当个人智能助手,在短短几十分钟内完成相当于数小时的工作。
许多试用过它的科学家都对它撰写文献综述或综述论文全文,甚至找出知识空白的能力印象深刻。不过,也有一些人的反馈并不那么积极。在一段在线视频评论中,来自莫菲特菲尔德湾区环境研究所的数据科学家Kyle Kabasares就评价道:“如果是人类写的,我会觉得,这还需要大量的改进”。
OpenAI和谷歌将此类产品的推出视为迈向能够处理复杂任务的AI智能体的一步。观察人士也指出,Deep Research之所以引人注目,是因为它将o3大语言模型(LLM)的改进推理能力与互联网搜索能力结合在了一起。相比之下,谷歌的Gemini Deep Research目前基于Gemini 1.5 Pro,而非其领先的推理模型2.0 Flash Thinking。
综述撰写
对于OpenAI和谷歌的这两款产品,许多用户都表示印象深刻。来自初创公司FutureHouse的化学家兼人工智能专家Andrew White认为,谷歌的产品“真正发挥了谷歌在搜索和计算方面的优势”,能让用户快速了解某个主题,而o3的推理技能则为OpenAI的产品所撰写的报告增添了精确性和复杂性,拓展了深度。
来自杰克逊实验室的免疫学家Derya Unutmaz表示,他曾通过OpenAI提供的ChatGPT Pro免费访问权限进行医学研究。他认为OpenAI的Deep Research所撰写的报告“非常令人印象深刻”并且“值得信赖”,“与已发表的综述论文不相上下,甚至更好”。他评价道:“我认为(人工)撰写综述正在变得过时”。
White预计,此类AI产品未来可以用于更新人类撰写的综述。毕竟,“每6个月都由人工更新一次权威综述不太可行”。
诚然,有不少人警示到,所有基于LLM的产品仍然存在不准确或有误导性的问题。OpenAI也在其官网指出,其产品“仍处于早期阶段,存在局限性”——它可能会弄错引文、混淆事实、无法区分权威信息和谣言,也无法准确表达其不确定性。OpenAI预计,这些问题会随着使用量增加和时间推移而改善。谷歌为Gemini Deep Research出具的免责声明中也写道:“Gemini可能会出错,请务必仔细检查”。
马克斯·普朗克光科学研究所人工科学家实验室负责人Mario Krenn指出,这些AI产品并不是在进行科学家通常意义上的“研究”。他表示,科学家们会花费数年时间深入研究单一主题,并逐步发展新的思想。“这种能力目前尚未在AI上得到验证”。Krenn补充道:“也许很快就会实现,谁也无法预料这些天会发生什么”。
测试结果
OpenAI对其产品进行了一系列测试。例如,在人类的最后考试(Humanity's Last Exam,HLE)中,Deep Research表现出色。HLE是一项3000道题的基准测试,涵盖了从语言学到科学等各个学科的专家级知识,其设计难度远高于现在人工智能所能胜任的其他常见测试(如GPQA)。该测试涵盖了从语言学到科学等各个领域的专家级知识。在测试中,Deep Research在HLE的纯文本问题上以26.6%的成绩名列第一。
OpenAI还针对GAIA基准进行了测试。GAIA基准于2023年开发,用于测试能够进行多步推理和网页浏览来回答问题的人工智能。在公开的GAIA排行榜上,跨国公司H2O.ai的智能体位居榜首,该智能体由Anthropic的Claude 3.5 Sonnet提供支持,并在最高难度级别上得分40.82%。而OpenAI的Deep Research得分为58.03%。
相较于OpenAI的测试结果,谷歌则表示,该公司目前没有可分享的基准测试结果。然而,White指出,OpenAI选择的基准测试仅针对答案简短、可验证的问题,可能并不适用于测试生成长篇且没有固定回答的问题。“我认为这些基准测试最终会被功能性基准取代,”他说,例如通过人工评估文章的质量和实用性。White之前曾参与一项研究,其中人类专家对AI生成和人类撰写的维基百科风格科学主题摘要进行了盲评,结果AI获胜。
这两款产品都有一些局限性。它们都无法提取付费信息,其中包括许多科学论文。这“是一个非常、非常重大的问题,”支持开放科学的Unutmaz表示,“获取这些知识比以往任何时候都更加重要”。一些科学家在线论坛上提出,他们应该能够将自己的期刊密码输入AI工具,并推测可以利用OpenAI的新“operator”智能体来实现这一点。对此,OpenAI CEO Sam Altman也在推特上回应道:“我们确实需要找到一个解决方案“。
原文链接:
https://www.nature.com/articles/d41586-025-00377-9