本文来自《Nature》,由AI范儿翻译整理。
人工智能正在提出那些人类希望回答的问题
“人工智能(AI)在科学研究中的创造性角色越来越重要。AI已经被用于文献搜索、数据收集、统计分析和论文草稿的撰写等方面。但是,生成假设——这通常需要创造性的火花来提出有趣和重要的问题——是一个更复杂的挑战。AI系统能够生成假设已经有40多年的历史。AI系统能够生成假设已经被应用于粒子物理学、材料科学、生物学、化学等领域。AI系统能够生成假设的盲点是AI可能最有用的地方。
今年十月初,随着诺贝尔基金会公布今年诺贝尔奖的得奖者名单,一群研究人员,其中包括一位之前的诺贝尔奖获得者,聚集在斯德哥尔摩,讨论了人工智能(AI)在科学研究中可能扮演的越来越具有创造性的角色。
这个研讨会部分由东京索尼AI的首席执行官、生物学家北野宏明领导,他们考虑了设立奖项,奖励那些通过AI以及AI与人类合作产生世界级科学成果的工作。两年前,北野宏明提出了诺贝尔图灵挑战:到2050年之前创建高度自主的系统(“AI科学家”),这些系统有潜力做出与诺贝尔奖相当的重大发现。
很容易想象,AI可以执行科学发现中的一些必要步骤。研究人员已经在使用它来搜索文献,自动化数据收集,进行统计分析,甚至撰写论文的部分内容。然而,「生成假设」这一任务通常需要一种创造性的火花,用来提出有趣且重要的问题,这是一个更加复杂的挑战。对于伊利诺伊大学芝加哥分校商学院的经济学家Sendhil Mullainathan来说,“这可能是我一生中最令人振奋的研究之一”。
网络效应
能够生成假设的人工智能系统已经有四十多年的历史了。上世纪80年代,芝加哥大学的信息科学家唐·斯旺森(Don Swanson)开创了一种基于文献的发现方法,旨在从科学文献中挖掘出尚未被揭示的公共知识。
例如,如果一些研究论文声称A导致B,而其他一些声称B导致C,那么我们可以假设A导致C。斯旺森开发了名为Arrowsmith的软件,用于搜索已发表论文中的这种间接联系,提出例如鱼油可以降低血液粘度,可能用于治疗Raynaud综合症,即在寒冷条件下血管收缩的情况。随后的实验证明了这一假设的正确性。
基于文献的发现和其他计算技术可以将现有的研究成果整理成“知识图”,其中节点代表分子和性质等要素。人工智能可以分析这些图,提出分子和性质之间未被发现的联系。这个过程在现代药物研发和基因功能分析等领域发挥了重要作用。
今年早些时候发表在《自然》杂志上的一篇综述文章探讨了人工智能生成假设的其他方式,比如提出能够整理复杂数据点的简单公式以及预测蛋白质如何折叠。研究人员已经在粒子物理学、材料科学、生物学、化学等多个领域实现了假设的自动生成。
一种方法是运用人工智能来协助科学家进行头脑风暴。洛杉矶南加利福尼亚大学的计算机科学家尤兰达·吉尔表示,这是大型语言模型擅长的任务,这些模型经过大量文本训练,能够生成新的文本。尽管语言模型可能产生不准确的信息并呈现为真实信息,但穆莱纳坦认为,这种“幻觉”并不一定是坏事。他说,它意味着“这似乎是真实的一种东西”,这正是假设的本质。
人工智能可能最有用的地方在于填补科学的盲点。芝加哥大学的社会学家詹姆斯·埃文斯一直在推动人工智能提出“外部”假设,即人类不太可能提出的假设。在今年早些时候发表在《自然人类行为》杂志上的一篇论文中,他和同事贾姆希德·苏拉蒂构建了知识图谱,其中不仅包括材料和属性,还包括研究人员。
埃文斯和苏拉蒂的算法遍历了这些网络,寻找材料和属性之间的隐藏快捷方式。他们的目标是最大程度地增加人工智能提出的假设可能是真实的概率,同时最小化研究人员自然而然地发现它们的机会。例如,如果研究某种药物的科学家与研究它可能治愈的疾病的科学家之间的联系很远,那么通常需要更长的时间才能发现该药物的潜力。
当埃文斯和苏拉蒂将截止到2001年的数据输入到他们的人工智能系统中时,他们发现约30%的关于药物再利用和材料电性的预测在大约六到十年后被研究人员发现。埃文斯表示,该系统可以调整,以提出更有可能正确的预测,但这些预测也不会跨越太大的逻辑距离,基于同时发现和合作的结果。但他补充说:“如果我们在预测人们明年将会做什么,那就感觉像是一个独家消息机器。”他更关心这项技术如何带领科学走向全新的方向。
保持简单
科学假设的范围从具体明确(例如,‘这个蛋白质将以这种方式折叠’)到抽象概括(例如,‘重力会加速所有具有质量的物体’),存在于一个连续的谱系上。迄今为止,人工智能主要产生了前者,即具体明确的假设。还有另一类假设,与前者部分重叠,它们从难以解释的假设(这些千百个因素导致了这一结果)到清晰明了的假设(一个简单的公式或句子)不等。
埃文斯认为,如果一台机器能够对个别情况做出有用的预测——“如果你将所有这些特定的化学物质放在一起,嘭,你会得到这个非常奇怪的效果”——但无法解释为什么这些情况有效,那就是技术上的成就,而不是科学的成就。穆拉纳坦也提出了类似的观点。
在某些领域,基本原理已经被理解,比如蛋白质折叠的机制,科学家们只希望人工智能解决运行复杂计算的实际问题,以确定蛋白质片段将如何移动。但在那些基本原理仍然未知的领域,比如医学和社会科学,科学家们希望人工智能能够识别适用于新情境的规则,穆拉纳坦说。
在去年九月份在加拿大多伦多举行的人工智能经济学会议上,穆拉纳坦和芝加哥大学经济学家詹斯·路德维希描述了一种方法,让人工智能和
人类共同生成广泛而清晰的假设。在概念验证中,他们寻求与被告的面部特征可能影响法官在审判前释放或拘留他们的假设。根据过去被告的照片以及法官的决定,算法发现了许多微妙的面部特征与法官的决定相关。
人工智能生成了具有这些特征的新的被告照片,然后请人类参与者描述它们之间的一般差异。结果显示,可能会被释放的被告通常看起来更“精心打扮”和“面部丰满”。穆拉纳坦表示,这种方法也可以应用于其他复杂的数据集,如心电图,以查找医生可能不知道要寻找的心脏病发作的标志。埃文斯说:“我很喜欢那篇论文。这是一种有趣的假设生成方法。”
在科学中,实验和假设生成通常形成一个循环:研究人员提出问题,收集数据,然后根据数据调整问题或提出新问题。瑞典哥德堡查尔莫斯理工大学的计算机科学家罗斯·金格致力于通过建立机器人系统来完成这一循环,这些机器人系统可以使用机械臂进行实验。其中一个系统叫做亚当,它自动进行微生物生长实验。另一个系统叫做伊娃,用于药物研发。在一个实验中,伊娃帮助揭示了一种叫做三氯生的牙膏成分如何用于抗击疟疾的机制。
机器人科学家
King目前正在开发Genesis,这是一个机器人系统,用于进行酵母实验。Genesis将同时在1万个生物反应器中培养真实的酵母细胞,通过调整环境条件或进行基因编辑等操作,制定并测试与酵母生物学相关的假设,并测量基因表达等特征。
尽管假设理论上可能涉及许多微妙的因素,但King表示,它们通常涉及到与人类细胞相似的单一基因或蛋白质的效应,这可能在药物开发中有潜在的应用价值。King是诺贝尔图灵挑战赛组织委员会的成员之一,他表示这些“机器人科学家”有望比人类更具一致性、客观性、经济性、高效性和透明性。
研究人员认为在进展中存在一些障碍和机会。生成假设的人工智能系统通常依赖于机器学习,而机器学习通常需要大量数据。提供更多研究论文和数据集可以帮助解决这个问题,但科学家们还需要构建一种不仅仅通过模式匹配而且能够理解物理世界的人工智能系统,这是加州大学圣迭戈分校的计算机科学家Rose Yu所指出的。Gil也同意,人工智能系统不应该仅仅依赖于数据,它们还应该受到已知科学法则的指导。“这是将科学知识融入人工智能系统的一种非常强大的方式,”她说。
随着数据收集的自动化程度不断提高,Evans预测自动化生成假设将变得越来越重要。巨大的望远镜和机器人实验室收集的数据量远远超过人类可以处理的范围。“我们自然而然地需要扩大智能、适应性问题的规模,”他说,“以充分利用这一能力,而不浪费它。”