版主信息与通信 2024-12-05

谷歌推出Genie 2模型，可生成达一分钟的3D高画质游戏

12月5日凌晨，谷歌DeepMind同时在官网发布了大型基础世界模型Genie 2，可通过单张图片和文字描述生成种类多样的可玩3D世界。作为今年初推出的 Genie 模型的升级版，Genie 2标志着人工智能在虚拟世界生成领域的又一次突破。

DeepMind透露，Genie 2具备从不同视角生成连贯世界的能力，这些生成的世界可持续时间长达一分钟，但多数情况下维持在10到20秒之间。在技术方面，Genie 2是一个自回归潜在扩散模型，在大型视频数据集上进行训练。经过自动编码器后，视频中的潜在帧被传递到大型Transformer动力学模型。在推理时， Genie 2能以自回归方式进行采样，逐帧获取单个动作和过去的潜在帧。

据悉，经过视频训练，该模型能够精准模拟物体的交互、动画效果、照明、物理现象、反射效果以及“NPC”（非玩家角色）的行为。许多生成的场景画质接近3A级别的电子游戏，甚至在物体视角一致性和场景记忆方面表现优异。不过，虽然大多数基础世界模型可以模拟游戏和3D环境，但还存在伪影、一致性和幻觉相关的问题。