谷歌推出Genie 2模型,可生成达一分钟的3D高画质游戏

12月5日凌晨,谷歌DeepMind同时在官网发布了大型基础世界模型Genie 2,可通过单张图片和文字描述生成种类多样的可玩3D世界。作为今年初推出的 Genie 模型的升级版,Genie 2标志着人工智能在虚拟世界生成领域的又一次突破。

DeepMind透露,Genie 2具备从不同视角生成连贯世界的能力,这些生成的世界可持续时间长达一分钟,但多数情况下维持在10到20秒之间。在技术方面,Genie 2是一个自回归潜在扩散模型,在大型视频数据集上进行训练。经过自动编码器后,视频中的潜在帧被传递到大型Transformer动力学模型。在推理时, Genie 2能以自回归方式进行采样,逐帧获取单个动作和过去的潜在帧。

据悉,经过视频训练,该模型能够精准模拟物体的交互、动画效果、照明、物理现象、反射效果以及“NPC”(非玩家角色)的行为。许多生成的场景画质接近3A级别的电子游戏,甚至在物体视角一致性和场景记忆方面表现优异。不过,虽然大多数基础世界模型可以模拟游戏和3D环境,但还存在伪影、一致性和幻觉相关的问题。


夕夕海 » 谷歌推出Genie 2模型,可生成达一分钟的3D高画质游戏

发表回复