吐槽完Sora，Google自己做的“基础世界模型”来了

2024年2月27日 18:52 • 未来科技

一键生成无限可玩世界

在成果演示中，研究人员将Imagen2生成的图像作为起始帧，通过Genie赋予生命：

不仅如此，真实世界中的物体也可以自由操控：

甚至小朋友充满童真的草图，也变成了想象力无限的游戏：

Genie为生成和步入虚拟世界开启了更多新的方式，也能够启迪更广泛的内容创作者。

项目组也解释了Genie模型背后的三个关键组件：

• 一个潜在动作模型（LAM），用于推断每对帧之间的潜在动作。

曾通过Gemini 1.5 Pro指出Sora生成视频不合理，质疑它担不起“世界模型”称号的Google，G字辈模型喜添新成员。

昨天，Google DeepMind推出人工智能模型“Genie”，一个能够生成交互式视频游戏的 AI。它可以根据用户提示，将合成图像、真实照片、手绘草图或想法转换成无尽多样的，可互动、可控制动作的虚拟世界。

Google认为，现在市面上许多优秀模型都能带来新颖丰富的内容。但如果给定一个来自互联网的大量视频语料库，不仅能训练模型生成图像或视频，还可以创造完整的互动体验呢？

团队将其概括为一种全新GenAI范式：“生成式交互环境”，并称由于Genie实现了人们与想象世界的自由互动，本质上它才是真正的“基础世界模型”。

一键生成无限可玩世界

在成果演示中，研究人员将Imagen2生成的图像作为起始帧，通过Genie赋予生命：

不仅如此，真实世界中的物体也可以自由操控：

甚至小朋友充满童真的草图，也变成了想象力无限的游戏：

Genie为生成和步入虚拟世界开启了更多新的方式，也能够启迪更广泛的内容创作者。DeepMind高级研究顾问Jeff Clune在X兴奋地分享道：

“这里实现的一个惊人之处是，任何人包括孩子们都可以绘制一个世界，然后进入其中探索它。这有多酷啊？我们用我孩子的画作测试了Genie。他们画了两只鹰，然后就可以操控着鹰到处飞。简直魔法！”

20万小时视频训练，无需行动标签即可学习控制

在《一千零一夜》里，仅需摩擦神灯，精灵就会出来为人们实现愿望。而唤醒AI世界里的Genie，首先必须把知识和能力填充进灯里。

项目负责人Tim Rocktäschel在X上写道，与“inductive biases（归纳偏见）”不同，团队专注于规模，使用了一个包含超过20万小时的2D平台游戏视频数据集，来训练这个 110 亿参数的世界模型。

作为首个从未标记的互联网视频中以无监督方式训练的生成式交互环境， Genie学会了控制角色的各种潜在动作，并且保持一致性。

实现这种精细控制是一个挑战，也正是Genie的独特之处。因为互联网视频通常没有关于哪个动作正在执行，甚至哪个图像部分应该被控制的标签。但Genie却可以确定谁是主角，并使用户能够在生成的世界中逐帧控制该角色。

并且，Genie通过学习产生的这个既丰富多样又一致性强的潜在动作空间，对于人类来说是可解释的。换句话说，即使是未经训练的用户，在与 Genie 生成的游戏世界互动几次之后，也能自然理解并做出向左、向右或跳跃等常见动作，形成多样化的运动轨迹。

项目组也解释了Genie模型背后的三个关键组件：

• 一个潜在动作模型（LAM），用于推断每对帧之间的潜在动作。

• 一个视频分词器（Video tokenizer），具有时间感知能力，与OpenAI在Sora中的“patches”概念类似，能将原始视频压缩为离散令牌。

• 一个动力学模型（Dynamics model），能够在给定潜在动作和过去帧令牌的条件下，预测视频下一帧。

整个运行过程如上图所示：将帧视频作为输入，通过视频分词器将它们转换成离散的令牌，并由潜在动作模型在每帧之间推断潜在动作。之后这两者都传递给动力学模型，以迭代方式生成下一帧的预测。

（论文地址在这里，感兴趣的小伙伴可以自行查看：https://arxiv.org/abs/2402.15391）

关于“世界模型”的较劲

在整个Genie的介绍中，“动作”成了出现频率最高的词汇。这也正是Google对于“世界模型”的理解。

这个近期被OpenAI的Sora点燃的课题曾引发一场业界大辩论。Meta首席科学家Yann LeCun就首当其冲质疑了Sora的技术路径。他认为，仅从语言提示生成看起来逼真的视频，并不意味着系统真正理解了物理世界，“内容生成”实则与世界模型中进行的因果预测非常不同。

Tim Rocktäschel此处转发表示赞同，先是肯定Sora 在视觉效果上确实令人印象深刻。接着表示“正如 LeCun所说，一个世界模型需要动作”，Genie 才是那个可以控制动作的世界模型。

曾表扬Sora是一个“数据驱动的物理引擎”，一个“可学习的模拟器或世界模型”的英伟达高级研究科学家Jim Fan，也再次开启夸夸模式：

“Tim 是我所知道的最有想象力的研究者之一，而 Genie 是他最具想象力的作品。不同于Sora，Genie 实际上是一个以推断合适动作为驱动的世界模型。

2024年也将是基础世界模型的一年！”

怎么条条大路通AGI？

Google还进一步表示，“Genie有朝一日会成为训练多任务智能体的基础世界模型，是生成式虚拟世界的未来”。

以往许多成果已经表明，游戏环境可以作为开发AI Agent的有效试验场。虽然目前的Genie只是基于游戏数据训练的，但它是一种通用方法。不仅限于二维环境或应用程序，还适用于多种类型的数据和场景，而无需任何额外专业知识。

为证明这一点，团队专门拿一些没有动作标签的机器人视频训练了一个25亿参数的Genie模型。结果它不仅学会了机器人手臂的控制，还学会了各种物体的互动和薯片包这样可变形物体的物理属性。

由此看出，Genie能够从机器人视频数据创建一个动作模拟器。换句话说，就算它没有被明确教导那些动作是什么，也能够看视频学会复制和预测各种动作。

Genie团队认为，世界模型应该是一个能够理解和与环境交互的系统，这种交互不是预先编程的，也不限于特定任务。Genie的核心是利用未标记视频数据进行无监督学习，并创建“生成式互动环境”，正是为实现AGI而迈出的重要一步。

当然，Genie还没有发布日期，目前只是作为一个研究项目，是否会成为真正的产品也还不清楚。除此以外，Tim也开诚布公地说，“Genie运行速度是每秒1帧，因此现在距离实时可玩还有很远的距离。”难怪乎有网友形容，这看起来像个来自80年代的“马里奥GPT”。

不过多数人还是报以肯定，认为短期到中期它将革新生成式游戏，长期则有可能解锁训练更多领域的AI智能体。项目团队也非常振奋，DeepMind研究总监Edward Grefenstette激动感慨道：

“今天的 Genie 可能看起来只是像素块的跳跃和奔跑，但它实现了可控视频生成从0到1的巨大飞跃。几年以后，面对更逼真的可控视频生成，我们也许会把这看作是“威尔·史密斯吃意大利面”时刻。”

毕竟，“This is the worst it will ever be.”

本文来自微信公众号：硅星GenAI（ID：gh_e06235300f0d），作者：张潇雪

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

年轻人对抗不确定性：做“能量学”信徒

Previous 2024年2月27日

ChatGPT时代，我们该如何学习？

Next 2024年2月27日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

吐槽完Sora，Google自己做的“基础世界模型”来了

相关推荐