Sora本质上是一个“世界模型”吗?

陆贝珂,电视剧《三体》视觉导演:

世界模型的开发应该接下来是一个很好的方向,因为世界模型最大的一个核心其实是,让它真正地认识到那些不可约化的东西,还有你认识到自身的边界在哪。

所以,到这里我们总结一下,Sora可能并不是一个成熟的产品,它还没有到ChatGPT时刻,现在可能算得上是GPT3时刻,但OpenAI对Sora的官宣让我们看到了生成式AI视频最前沿的技术流派进步,以及用高算力和大参数也能达到“涌现”的技术突破。

Sora的技术文章发布之后,OpenAI用的一个词却在学界引发了不少的争议,这就是“世界模拟器”(World Simulator)

目前,很多外界的舆论将OpenAI称Sora为的这个“世界模拟器”和“世界模型”相关联起来。

那么,什么是世界模型?为什么大家的期待这么热烈呢?

世界模型的概念最早也最常出现在机器人领域的论文中。2018年,两位名为David Ha和Jürgen Schmidhuber的学者发布了一篇名为World Models的文章,这篇文章也被Sora的技术解释论文所引用。

在这篇文章里,作者并没有对World Models给出一个明确的定义,但是却引用了一篇系统动力学之父Jay Wright Forrester发布于1971年的有关人脑mental model的文献来进行类比。Forrester指出,人类使用有限的感官感知世界,并基于这些感知建立起一个内部的、简化的世界模型。我们所做的决策和行动都是基于这个内部模型。

在这个mental model中,并不包含世界上的所有信息或细节,而只是包含了被我们选中的某些互相关联的概念。换句话说,人们在头脑中构建的世界图像是现实世界的一个简化版,这个简化的模型不仅帮助我们理解世界,更重要的,我们还会根据这个头脑中的简化世界决定预测未来走向。

世界模型也采用了类似的思维模式:在有限的、有选择性的信息基础上进行有效的决策和预测。更重要的是,和人脑一样,世界模型不仅需要预测立即的结果,还要能够预测更长时间序列的后果,这对于理解复杂环境和规划长期策略至关重要。

具体到模型架构上,根据图灵奖获得者、Meta的首席AI科学家Yann LeCun的定义,一个世界模型应该包含以下元素:

1)观察 x(t):这是你在给定时刻对世界的看法或感知。想象你在玩视频游戏,看到你的角色站在一个平台上。那就是你的观测。

2)状态估计 s(t):模型对当前世界状态的估计。就像你在游戏中有一个关于一切所在位置的心理地图,即使你现在看不到全部。

3)动作建议 a(t):模型可能提出的行动方案。这是对下一步要做什么的建议,比如决定跳跃到另外一个台阶上。

4)潜在变量建议 z(t):用于表示当前观察不能完全解释的未知信息。这就有点棘手了。它代表所有未知因素,这些因素可能影响你行动的结果。想象游戏中有风,当跳跃时风可能会把你的角色吹偏。你看不到风(它是未知的),但你知道它可能影响你的跳跃。

Yann LeCun认为,世界模型有两个组成部分:编码器(这个函数接受你的观测并将其转换成模型可以更有效工作的格式或表示),和隐藏状态预测器【利用编码后的观测、当前的世界状态、你正在考虑的行动和未知因素(潜在变量)来猜测接下来会发生什么,以此来预测世界的未来状态】

Yann LeCun定义下的世界模型之所以强大,是因为它试图模仿智能生物与世界的互动方式:观察、理解、预测和行动,同时也考虑未知的事物和因素。 它是一个综合框架,可以应用于从玩视频游戏到导航现实世界环境的各种问题,目标是创建能够学习以对未知因素具有适应性和鲁棒性(在异常和危险情况下系统生存的能力)的方式导航和与复杂环境交互的模型。

是不是觉得以上的解释非常复杂很难懂?没关系,AI生成视频公司runway在去年年底出了一个还挺有趣的视频,更简单易懂的解释了世界模型。

也就是说,世界模型就像狗狗一样,对所有的视觉,听觉和一切数据的关系,这个模型能弄清楚如何预测结果,以及调整它的行为。而更重要的是,世界模型要能和狗狗一样,对新的、没有见过的数据也能形成泛化的理解,也根据它对世界的理解,从而对未来做出预测。

也就是说,我家狗不仅会对它爱吃的零食流口水也会拽我去它最爱的狗公园,同时,它会对它从来没吃过的东西流口水,或者,去拽着我去一家它从来没去过的宠物零食店。

所以,在理想状态下,训练出的世界模型不仅能够复制它看到的数据,更能够理解数据背后的因果关系,并在新的情况下做出有效的预测。如果把世界模型的概念套用到视频生成领域则可以理解为,这个模型能够让机器像人类一样,对世界产生一个全面而准确的认知,从而生成更流畅、更符合逻辑、时间更长的视频

所以,就在此前GPT和diffusion等模型路线无法达到能让业界商用的标准时,很多行业人士是对“世界模型”抱有极大期待的,包括了好莱坞等影视特效团队。

陆贝珂,电视剧《三体》视觉导演:

世界模型的开发应该接下来是一个很好的方向,因为世界模型最大的一个核心其实是,让它真正地认识到那些不可约化的东西,还有你认识到自身的边界在哪。因为你做任何的事情它是有一种框架性,对吧?你真实的世界就是这样的,真实世界它的框架来自于大量的物理事实和人际关系的情绪事实,这个世界运转时候的一种这种政治逻辑,对吧?

这是几种很多东西,这是你的世界的框架,你如果只是从语言的角度去理解世界的时候,你就发现不了这个世界真实的那一个框架。这部分现在我觉得在GPT4的这个级别上,因为它是属于语言模型,它还没有达到说后面的开放式的世界模型的这种级别,那看起来OpenAI一直在这方面努力。

以Yann Lecun的定义,Sora目前是远不能达到世界模型的标准,而更多的学界大佬则认为OpenAI有夸大宣传的嫌疑。Yann LeCun本人就曾多次公开“狠批”Sora,表示“生成视频的过程与基于世界模型的因果预测完全不同”。

Keras之父François Chollet也持有相似观点。他认为仅仅通过让AI观看视频是无法完全学习到世界模型的。尽管像Sora这样的视频生成模型确实融入了物理模型,问题在于这些模型的准确性及其泛化能力——即它们是否能够适应新的、非训练数据插值的情况。而目前,因为完全不清楚Sora的demo视频与训练数据的差异有多大,Sora的泛化能力到底有多强尚不可知。而在已经发布的demo里,已经有人指出了不符合物理规律之处,这就表明,不论如何Sora物理模型的生成能力还未达到令人信服的可靠水平。

南京大学人工智能学院教授俞扬也反对将Sora归类于世界模型。他提出,世界模型的核心在于反事实推理(Counterfactual reasoning),即便对于数据中没有见过的决策,在世界模型中都能推理出决策的结果。Sora生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此Sora就是一个视频工具,难以作为反事实推理的工具去准确地回答what if问题。

至于OpenAI未来究竟能不能推出真正的世界模型,Yann LeCun和Chollet都表达了质疑态度。Chollet提到,如果按照目前OpenAI所采用的“大数据、大模型、大算力”的暴力美学路线,是不可能构建出能广泛适用于现实世界所有情况的模型,因为现实世界的复杂度和多样性远远超出了任何模型通过有限数据所能学习到的范围。

然而,业界也有一些积极的声音。在英伟达研究院高级研究员Jim Fan看来,Sora已经是一个世界模型,包含了世界模型所需要的所有元素。Jim Fan在LinkedIn上转发了Yann LeCun对世界模型的定义,并评论说:

Sora本质上是一个世界模型,“无操作”是唯一允许的操作。 您可以设置世界的初始状态,在潜在空间中运行模拟,并被动观察发生的情况。现在没办法主动干预。

但能否主动干预,OpenAI官方似乎是有一些不同的说法。但无论如何,Jim Fan对Sora能成为世界模型的乐观是可以理解的。AI视频生成的用途绝不仅仅在娱乐和艺术创作上,视频数据可以捕捉到难以用语言表达的物理世界中的重要信息和数据,这将在AI智能体、AI机器人、计算引擎、环境模拟器、生成游戏环境等等科学和工程研究中,极大程度推动相关科研的发展。

最近英伟达宣布,Jim Fan将在英伟达内部领导组建一个新研究小组,GEAR,是“Generalist Embodied Agent Research”的简称,中文是“通用具身智能体研究”。

Jim Fan在推特上写到,“2024年将是属于机器人、游戏AI和模拟的一年。”

如果大家去看看硅谷101之前推出的《AI机器人》那期节目,在结尾的时候就说到:具身智能机器人在现实世界训练太困难,采集数据太慢太昂贵,而在模拟器中训练将是重要的研究方向,包括斯坦福著名的人工智能学者李飞飞教授就是这一流派的倡导者,而Jim Fan在斯坦福时正是李飞飞的博士生。

顺便说一句,现在苹果的Vision Pro也出来了,业内人士认为这将是很好的采集现实空间数据的仪器。

因此,“模拟”Simulation对机器人和智能体行业都将有着重要的意义,而Sora,如果成为“现实世界模拟器”,将极大地助力这个行业的发展。这一点,我们也从斯坦福非常热门的炒菜机器人团队Aloha的创始团队那里得到了肯定。

Tony Z.Zhao,斯坦福大学开源机器人Mobile ALOHA项目联合负责人:

这肯定会很有帮助,或者说任何一种更大规模的pre-training(预训练)都会大有帮助。例如,在这种情况下,杯子就像是半透明的。在测试时,如果我扔一个蓝色的杯子,它就不会工作。

但是,如果我们期待一个正确实施的互联网pre-training(预训练),与这个数据集相结合,或者在蓝色杯子上工作,也不是没有道理的。

因为也许世界模型中捕捉到了一些常识,它会告诉你,无论杯子是蓝色、红色还是半透明的,处理它的方法都是一样的。因此,我会期待这样的世界模型能在泛化方面带来进展。

近期,来自Google DeepMind的研究科学家 Sherry Yang及其团队,联合业界资深研究员在一篇题为“Video as the New Language for Real-World Decision Making”的论文中,探索了视频生成技术在机器人,自动驾驶和各类科学领域研究的重大用途,并总结说:视频生成之于物理世界,就如同语言建模之于数字世界

所以,到这里我们总结一下,Sora可能并不是一个成熟的产品,它还没有到ChatGPT时刻,现在可能算得上是GPT3时刻,但OpenAI对Sora的官宣让我们看到了生成式AI视频最前沿的技术流派进步,以及用高算力和大参数也能达到“涌现”的技术突破。同时,在AI机器人和具身智能等学术和研究领域,大家很期待Sora能助力更多更高效的研发,而至于Sora距离商用还有多远,我们得先等Sora正式发布,大家都用起来,才能知道了。

但同时,生成式AI视频大模型的竞争才刚刚开始,虽然OpenAI目前展示了绝对的领先地位,远超runway和pika等一众创业公司,但谷歌也紧追其后。就在2月28日,谷歌Deepmind发布了新的可交互视频生成模型Genie。

这款名为 Genie 的新模型可以接受简短的文字描述、手绘草图或图片,并将其变成一款可玩的电子游戏,游戏风格类似于超级马里奥等经典的 2D 平台游戏。虽然Genie只是一个内部研究项目也暂时不会对外界发布,但业内人士认为,我们可能很快会看到Genie的3D版本,也会有基于视频生成的游戏引擎,而这也清楚地向外界透露,和OpenAI一样,谷歌等一众科技巨头在生成式AI视频上的野心绝不仅限于视频用于娱乐,而在虚拟环境中训练机器人,才是更重要的星辰大海。

本文来自微信公众号:硅谷101 (ID:TheValley101),作者:陈茜、思岩

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月7日
下一篇 2024年4月7日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日