吐槽完 Sora，Google自己做的“基础世界模型”来了_观察

微信图片_20240301091029.jpg

文章来源：硅星GenAI

作者：张潇雪

曾通过Gemini 1.5 Pro指出Sora生成视频不合理，质疑它担不起“世界模型”称号的Google，G字辈模型喜添新成员。

今天，Google DeepMind推出人工智能模型「Genie」，一个能够生成交互式视频游戏的 AI。它可以根据用户提示，将合成图像、真实照片、手绘草图或想法转换成无尽多样的，可互动、可控制动作的虚拟世界。

微信图片_20240301091035.png

Google认为，现在市面上许多优秀模型都能带来新颖丰富的内容。但如果给定一个来自互联网的大量视频语料库，不仅能训练模型生成图像或视频，还可以创造完整的互动体验呢？

团队将其概括为一种全新GenAI范式：「生成式交互环境」，并称由于Genie实现了人们与想象世界的自由互动，本质上它才是真正的“基础世界模型”。

微信图片_20240301091058.png

一键生成无限可玩世界

在成果演示中，研究人员将Imagen2生成的图像作为起始帧，通过Genie赋予生命：

微信图片_20240301091109.png

不仅如此，真实世界中的物体也可以自由操控：

微信图片_20240301091120.png

甚至小朋友充满童真的草图，也变成了想象力无限的游戏：

微信图片_20240301091129.png

Genie为生成和步入虚拟世界开启了更多新的方式，也能够启迪更广泛的内容创作者。DeepMind高级研究顾问Jeff Clune在X兴奋地分享道：

“这里实现的一个惊人之处是，任何人包括孩子们都可以绘制一个世界，然后进入其中探索它。这有多酷啊？我们用我孩子的画作测试了Genie。他们画了两只鹰，然后就可以操控着鹰到处飞。简直魔法！”

微信图片_20240301091134.png

20万小时视频训练，无需行动标签即可学习控制

在《一千零一夜》里，仅需摩擦神灯，精灵就会出来为人们实现愿望。而唤醒AI世界里的Genie，首先必须把知识和能力填充进灯里。

项目负责人Tim Rocktäschel在X上写道，与“inductive biases（归纳偏见）”不同，团队专注于规模，使用了一个包含超过20万小时的2D平台游戏视频数据集，来训练这个 110 亿参数的世界模型。

作为首个从未标记的互联网视频中以无监督方式训练的生成式交互环境， Genie学会了控制角色的各种潜在动作，并且保持一致性。

微信图片_20240301091139.png

实现这种精细控制是一个挑战，也正是Genie的独特之处。因为互联网视频通常没有关于哪个动作正在执行，甚至哪个图像部分应该被控制的标签。但Genie却可以确定谁是主角，并使用户能够在生成的世界中逐帧控制该角色。

并且，Genie通过学习产生的这个既丰富多样又一致性强的潜在动作空间，对于人类来说是可解释的。换句话说，即使是未经训练的用户，在与 Genie 生成的游戏世界互动几次之后，也能自然理解并做出向左、向右或跳跃等常见动作，形成多样化的运动轨迹。

微信图片_20240301091151.png

项目组也解释了Genie模型背后的三个关键组件：

• 一个潜在动作模型（LAM），用于推断每对帧之间的潜在动作。

• 一个视频分词器（Video tokenizer），具有时间感知能力，与OpenAI在Sora中的“patches”概念类似，能将原始视频压缩为离散令牌。

• 一个动力学模型（Dynamics model），能够在给定潜在动作和过去帧令牌的条件下，预测视频下一帧。

微信图片_20240301091155.jpg

整个运行过程如上图所示：将帧视频作为输入，通过视频分词器将它们转换成离散的令牌z，并由潜在动作模型在每帧之间推断潜在动作a。之后这两者都传递给动力学模型，以迭代方式生成下一帧的预测。

论文地址在这里，感兴趣的小伙伴可以自行查看：https://arxiv.org/abs/2402.15391

关于“世界模型”的较劲

在整个Genie的介绍中，“动作”成了出现频率最高的词汇。这也正是Google对于「世界模型」的理解。

这个近期被OpenAI的Sora点燃的课题曾引发一场业界大辩论。Meta首席科学家Yann LeCun就首当其冲质疑了Sora的技术路径。他认为，仅从语言提示生成看起来逼真的视频，并不意味着系统真正理解了物理世界，“内容生成”实则与世界模型中进行的因果预测非常不同。

Tim Rocktäschel此处转发表示赞同，先是肯定Sora 在视觉效果上确实令人印象深刻。接着表示“正如 LeCun所说，一个世界模型需要动作”，Genie 才是那个可以控制动作的世界模型。

微信图片_20240301091200.png

曾表扬Sora是一个「数据驱动的物理引擎」，一个「可学习的模拟器或世界模型」的英伟达高级研究科学家Jim Fan，也再次开启夸夸模式：

“Tim 是我所知道的最有想象力的研究者之一，而 Genie 是他最具想象力的作品。不同于Sora，Genie 实际上是一个以推断合适动作为驱动的世界模型。

2024年也将是基础世界模型的一年！”

微信图片_20240301091210.png

怎么条条大路通AGI？

Google还进一步表示，“Genie有朝一日会成为训练多任务智能体的基础世界模型，是生成式虚拟世界的未来”。

以往许多成果已经表明，游戏环境可以作为开发AI Agent的有效试验场。虽然目前的Genie只是基于游戏数据训练的，但它是一种通用方法。不仅限于二维环境或应用程序，还适用于多种类型的数据和场景，而无需任何额外专业知识。

为证明这一点，团队专门拿一些没有动作标签的机器人视频训练了一个25亿参数的Genie模型。结果它不仅学会了机器人手臂的控制，还学会了各种物体的互动和薯片包这样可变形物体的物理属性。

微信图片_20240301091218.png

由此看出，Genie能够从机器人视频数据创建一个动作模拟器。换句话说，就算它没有被明确教导那些动作是什么，也能够看视频学会复制和预测各种动作。

Genie团队认为，世界模型应该是一个能够理解和与环境交互的系统，这种交互不是预先编程的，也不限于特定任务。Genie的核心是利用未标记视频数据进行无监督学习，并创建「生成式互动环境」，正是为实现AGI而迈出的重要一步。

当然，Genie还没有发布日期，目前只是作为一个研究项目，是否会成为真正的产品也还不清楚。除此以外，Tim也开诚布公地说，“Genie运行速度是每秒1帧，因此现在距离实时可玩还有很远的距离。”难怪乎有网友形容，这看起来像个来自80年代的“马里奥GPT”。

不过多数人还是报以肯定，认为短期到中期它将革新生成式游戏，长期则有可能解锁训练更多领域的AI智能体。项目团队也非常振奋，DeepMind研究总监Edward Grefenstette激动感慨道：

“今天的 Genie 可能看起来只是像素块的跳跃和奔跑，但它实现了可控视频生成从0到1的巨大飞跃。几年以后，面对更逼真的可控视频生成，我们也许会把这看作是「威尔·史密斯吃意大利面」时刻。”

毕竟，“This is the worst it will ever be.”

简 繁

吐槽完 Sora，Google自己做的“基础世界模型”来了

一键生成无限可玩世界

20万小时视频训练，无需行动标签即可学习控制

关于“世界模型”的较劲

怎么条条大路通AGI？

简

繁