本文来自智东西(zhidx.com),来源 | IEEE Spectrum,编译 | 风衣。
智东西12月17日消息,斯坦福大学教授、AI教母李飞飞于12月11日在重量级AI会议NeurIPS上发表了主题演讲,并在演讲前接受了IEEE Spectrum的独家采访。在专访中,李飞飞表示AI视觉模型与语言模型同等重要,而空间智能正是视觉智能的发展方向。未来空间智能将深度参与到我们的日常生活中,这一领域大有可为。
李飞飞也提到,应该为公共部门提供足够的数据与算力资源,以推动AI研究更好的发展。
李飞飞的研究已足以让她在AI的发展历史上占据一席之地。在深度学习革命中,她发挥了重要作用:深耕数年创建ImageNet数据库和竞赛,让AI系统挑战识别逾一千种物体和动物。2012年,一个名为AlexNet的神经网络在AI研究界引起了轰动,它的性能远远超过了所有其他类型的模型,并赢得了ImageNet比赛。从此,靠着海量、免费的网络数据和显卡提供的前所未有的算力,神经网络研究一飞冲天。在ImageNet问世后的13年里,计算机视觉研究人员掌握了对象识别技术,并转向图像和视频生成。
李飞飞是斯坦福大学人类中心AI研究所(HAI)的联合创始人,持续致力于突破计算机愿景的边界。就在今年,她创办了一家公司World Labs,生成用户可以探索的3D场景。World Labs致力于为AI提供“空间智能”,即生成3D世界、在3D世界中进行推理和交互的能力。
一、视觉和语言互补,空间智能是实现全面智能的基础
问题:您为什么将演讲的题目定为“攀登视觉智能之梯(Ascending the Ladder of Visual Intelligence)”?
李飞飞:我认为,仅凭直觉就能知道,AI的复杂程度和成熟程度是有不同层次的。在演讲中,我想传达这样一种感觉,即在过去几十年中,尤其是过去10多年的深度学习革命中,我们在视觉智能领域学到的知识已令人叹为观止,在这项技术上的能力也日趋成熟。我还受到了犹大·伯尔(Judea Pearl)“因果阶梯”的启发(《因果革命(The Book of Why)》,2020)。
这个演讲还有一个副标题,叫“从看到做(From Seeing to Doing)”,这是一个被大家低估的理念:无论对于动物还是AI,视觉都与交互、做事密切相关,这是对语言的某种悖反。但从根本上说,语言还是一种用来传递想法的交流工具。在我看来,视觉和语言恰好互补,都是极其重要的AI发展模式。
问题:您的意思是,我们会本能地对某些场景做出反应吗?
李飞飞:我说的不仅仅是直觉。如果多了解一下感知能力和动物智力的演变,就会发现视觉与这些都是紧密联系的。当我们能够从环境中获取更多信息时,进化的力量就会推动能力和智力向前发展。如果你感知不到环境,那与世界的关系就非常被动,不管是吃还是被吃,都会是非常被动的举动。但是,一旦你能通过感知从环境中获取线索,进化的力量就会增强,从而推动智力向前发展。
问题:您认为,让机器从环境中获得更多信息是我们深化机器智能的方式吗?
李飞飞:我不确定我会用“深化”来形容。我认为我们正在创造更强大的能力,AI正变得越来越复杂,功能越来越强大。我相信,解决空间智能问题是迈向全面智能的基础和关键,这点是绝对没问题的。
二、“世界是3D的”,空间智能是基础性工程
问题:我看过World Labs的演示视频,您为什么想要研究空间智能并构建3D世界?
李飞飞:我认为空间智能是视觉智能的发展方向。如果我们想要认真解决视觉方面的问题,将视觉与实际操作建立链接,那就会发现一个非常简单的、显而易见的事实:世界是3D的。我们不是生活在平面世界里,不管是机器人还是设备,所有的物理主体都将会生活在3D世界里,甚至虚拟世界也变得越来越3D。如果与艺术家、游戏开发人员、设计师、建筑师、医生交谈,您会发现即使他们在虚拟世界工作,这些虚拟世界也大都是3D的。如果花点时间仔细想想,认识到这个简单却重要的事实,那么毫无疑问,解决3D智能的问题就是基础性工程。
问题:我很好奇World Labs生成的场景是怎么做到既让物体持续存在、又让其运动符合物理规律的,感觉这是个让人兴奋的进步,因为即使是Sora这样的视频生成工具,也都还处于摸索阶段。
李飞飞:一旦你认识到世界的3D性,很多事情都是很自然的。例如,我们发布在社交媒体上的一条视频中,篮球被扔到某个场景里。因为它是3D的,所以才能实现这种效果。如果场景只是2D生成的像素,篮球就无处可去了。
问题:或者就像在Sora生成的视频一样,篮球可能会出现在某个地方,然后又莫名其妙地消失。在尝试推动这项技术向前发展的过程中,您面临的最大技术挑战是什么?
李飞飞:没有人能解决这个问题,这非常非常难。你在World Labs演示视频中可以看到:我们拍摄了一幅梵高的画,并用统一的风格围绕这幅画生成了整个连贯场景:艺术风格、光线,甚至那个地方会有什么样的建筑。如果你转过身,发现画面变成了摩天大楼,那就很没有说服力了。而且它必须是3D的,你必须能够进入其中进行探索。所以,它不仅仅是像素而已。
问题:您能谈谈用来训练它的数据吗?
李飞飞:那就太多了。
三、知识探索需算力资源支持,AI理解3D世界或带来大量创造力
问题:您在计算机负载方面有遇到什么技术困难吗?
李飞飞:空间智能需要大量的算力,而这是公共部门难以负担的。这也是我对进行学术休假、创建私营企业研发AI这件事感到兴奋的一部分原因。同时,这也是我一直倡导公共部门获取计算资源的原因之一,因为我自己的经历突出了必须拥有足够资源、以推动创新的重要性。
问题:让公共部门拥有更大的权力是很有意义的,因为它通常更专注于为了知识本身以及造福人类而追求知识。
李飞飞:知识探索确实需要资源的支持。在伽利略时代,正是最好的望远镜帮助天文学家观察到了新天体。而列文虎克则意识到放大镜可以成为显微镜,然后发现了细胞。每当新的技术工具出现时,它就会推动知识的探索。而在AI的时代,技术工具包括算力和数据。我们必须意识到,公共部门也需要这些资源。
问题:在联邦政府层面,您希望采用他们哪些措施来提供资源?
李飞飞:过去五年里,这一直是斯坦福大学人类中心AI研究所(Stanford HAI)的工作内容。我们一直在与国会、参议院、白宫、行业和其他大学合作,以创建NAIRR,即国家AI研究资源中心(the National AI Research Resource)。
问题:假设我们可以让AI系统真正理解3D世界,那会给人类带来什么好处?
李飞飞:它将给人们带来大量的创造力和生产力。我很希望能用一种更高效的方式设计我的房子。我知道,很多医学应用都涉及到要理解人体,这个非常特殊的3D世界。我们总在讨论一种人类能够创造机器人帮助自己的未来。但机器人是在3D世界中工作的,它们的大脑必须具备空间智能。我们也在谈论虚拟世界,让人们可以参观各地、学习概念或娱乐。而这些都依赖3D技术,特别是我们所说的增强现实(AR)这样的混合技术。我希望当我戴着眼镜漫步在国家公园时,它能为我提供关于树木、小径、云层的信息。我也希望借助空间智能来学习不同的技能。
问题:什么样的技能?
李飞飞:我举一个很普通的例子:如果我在高速公路上爆胎了,我该怎么办?现如今我会打开“如何更换轮胎”的视频。但如果我能戴上眼镜,看见我的车发生了什么,然后在指导下完成换胎,那就太好了。但这是一个最普通的例子。你也可以想到做饭、可以想到雕塑,各种有趣的事情。
问题:您认为有生之年我们能走多远?
李飞飞:我认为这在我们有生之年一定会实现,因为技术进步的速度特别快。你已经看到了过去十年发生的变化,毫无疑问,这也预示着未来的发展。
来源:IEEE Spectrum