本文来自IT之家(www.ithome.com),作者| 远洋。
IT之家12月5日消息,谷歌旗下人工智能研究机构DeepMind发布了一款名为Genie 2的新型模型,可通过单张图片和文字描述生成“无限”种类的可玩3D世界。作为今年初推出的Genie模型的升级版,Genie 2标志着人工智能在虚拟世界生成领域的一次重大突破。
Genie 2能够根据用户输入的文本描述和图像,实时生成交互式的三维场景。例如,输入“森林中的可爱人形机器人”,模型便可构建一个包含机器人角色和可探索环境的动态场景。用户可以通过键盘或鼠标操作角色在世界中进行跳跃、游泳等互动。
DeepMind表示,Genie 2可以生成具有不同视角(如第一人称视角和等距视角)的连贯世界,持续时间长达一分钟,其中大多数持续10到20秒。
DeepMind还称,Genie 2在生成过程中能够模拟物体交互、动画、光照、物理反射以及“非玩家角色”(NPC)的行为。许多生成的场景画质接近AAA级别的电子游戏,甚至在物体视角一致性和场景记忆方面表现优异。
与之类似的模型还有李飞飞创立的World Labs和以色列初创公司Decart的产品,虽然大多数像Genie 2这样的模型——也就是世界模型——可以模拟游戏和3D环境,但存在伪影、一致性和幻觉相关的问题。例如,Decart的Minecraft模拟器Oasis分辨率低,并且很快就会“忘记”关卡的布局。然而,Genie 2可以记住模拟场景中不在视野范围内的一部分,并在它们再次可见时准确地渲染它们。(World Labs的模型也可以做到这一点。)
值得注意的是,DeepMind未详细披露Genie 2的训练数据来源,但业内推测其可能包括大量热门游戏的游玩记录。考虑到谷歌可访问YouTube海量视频资源,并声称拥有使用其内容进行训练的权利,这引发了外界对该模型是否侵犯知识产权的争议。
目前用Genie 2创建的游戏实际上不会那么有趣,因为每隔一分钟左右就会抹去进度。因此,DeepMind将其定位为研究与创意工具,应用于快速原型设计和AI智能体评估等场景。
DeepMind在其博客中写道:“通过Genie 2的泛化能力,概念艺术和手绘草图可以转化为完全互动的环境。这让研究人员能够快速生成多样化的环境,为未见过的任务场景提供评估支持。”
IT之家注意到,谷歌对世界模型研究的投入在持续扩大。今年10月,DeepMind聘请了OpenAI前视频生成项目负责人Tim Brooks,同时两年前从Meta挖来了以开放式实验闻名的Tim Rocktäschel。