曾通过Gemini 1.5 Pro指出Sora生成视频不合理,质疑它担不起“世界模型”称号的Google,G字辈模型喜添新成员。
今天,Google DeepMind推出人工智能模型「Genie」,一个能够生成交互式视频游戏的 AI。它可以根据用户提示,将合成图像、真实照片、手绘草图或想法转换成无尽多样的,可互动、可控制动作的虚拟世界。
Google认为,现在市面上许多优秀模型都能带来新颖丰富的内容。但如果给定一个来自互联网的大量视频语料库,不仅能训练模型生成图像或视频,还可以创造完整的互动体验呢?
团队将其概括为一种全新GenAI范式:「生成式交互环境」,并称由于Genie实现了人们与想象世界的自由互动,本质上它才是真正的“基础世界模型”。
在成果演示中,研究人员将Imagen2 生成的图像作为起始帧,通过Genie赋予生命:
不仅如此,真实世界中的物体也可以自由操控:
甚至小朋友充满童真的草图,也变成了想象力无限的游戏:
在《一千零一夜》里,仅需摩擦神灯,精灵就会出来为人们实现愿望。而唤醒AI世界里的Genie,首先必须把知识和能力填充进灯里。
项目负责人Tim Rocktäschel在X上写道,与“inductive biases(归纳偏见)”不同,团队专注于规模,使用了一个包含超过 20 万小时的2D平台游戏视频数据集,来训练这个 110 亿参数的世界模型。
作为首个从未标记的互联网视频中以无监督方式训练的生成式交互环境, Genie学会了控制角色的各种潜在动作,并且保持一致性。
在整个Genie的介绍中,“动作”成了出现频率最高的词汇。这也正是Google对于「世界模型」的理解。
这个近期被OpenAI的Sora点燃的课题曾引发一场业界大辩论。Meta首席科学家Yann LeCun就首当其冲质疑了Sora的技术路径。他认为,仅从语言提示生成看起来逼真的视频,并不意味着系统真正理解了物理世界,“内容生成”实则与世界模型中进行的因果预测非常不同。
Tim Rocktäschel此处转发表示赞同,先是肯定Sora 在视觉效果上确实令人印象深刻。接着表示“正如 LeCun所说,一个世界模型需要动作”,Genie 才是那个可以控制动作的世界模型。
Google还进一步表示,“Genie有朝一日会成为训练多任务智能体的基础世界模型,是生成式虚拟世界的未来”。
以往许多成果已经表明,游戏环境可以作为开发AI Agent的有效试验场。虽然目前的Genie只是基于游戏数据训练的,但它是一种通用方法。不仅限于二维环境或应用程序,还适用于多种类型的数据和场景,而无需任何额外专业知识。
为证明这一点,团队专门拿一些没有动作标签的机器人视频训练了一个 25 亿参数的Genie模型。结果它不仅学会了机器人手臂的控制,还学会了各种物体的互动和薯片包这样可变形物体的物理属性。
由此看出,Genie能够从机器人视频数据创建一个动作模拟器。换句话说,就算它没有被明确教导那些动作是什么,也能够看视频学会复制和预测各种动作。
Genie团队认为,世界模型应该是一个能够理解和与环境交互的系统,这种交互不是预先编程的,也不限于特定任务。Genie的核心是利用未标记视频数据进行无监督学习,并创建「生成式互动环境」,正是为实现AGI而迈出的重要一步。
当然,Genie还没有发布日期,目前只是作为一个研究项目,是否会成为真正的产品也还不清楚。除此以外,Tim也开诚布公地说,“Genie运行速度是每秒 1 帧,因此现在距离实时可玩还有很远的距离。”难怪乎有网友形容,这看起来像个来自 80 年代的“马里奥GPT”。
不过多数人还是报以肯定,认为短期到中期它将革新生成式游戏,长期则有可能解锁训练更多领域的AI智能体。项目团队也非常振奋,DeepMind研究总监Edward Grefenstette激动感慨道:
“今天的 Genie 可能看起来只是像素块的跳跃和奔跑,但它实现了可控视频生成从 0 到 1 的巨大飞跃。几年以后,面对更逼真的可控视频生成,我们也许会把这看作是「威尔·史密斯吃意大利面」时刻。”
毕竟,“This is the worst it will ever be.”