为什么说Sora是世界的模拟器？

2024年2月19日 15:23 • 未来科技

AI 视频生成的“ChatGPT时刻”比想象中提前了6个月。

Sora 的诞生意味着什么，何以堪称“世界的模拟器”？

OpenAI 技术报告中透露，Sora 能够深刻地“理解”运动中的物理世界，堪称为真正的世界模型。

而 LeCun 则一贯酸溜溜地认为 Sora 不能理解物理世界，在他看来，“仅根据文字提示生成逼真的视频，并不代表模型理解了物理世界。生成视频的过程与基于世界模型的因果预测完全不同”。

Sora 真的理解物理世界吗？与 ChatGPT 的底层逻辑有什么异同？

成为物理世界的模拟器，Sora 是唯一的解法吗？

OpenAI 接连核爆，“暴力美学”之路真的能抵达 AGI 吗？

Sora 是世界的模拟器？

OpenAI 在其技术报告中只字未提数据规模、训练成本等相关的细节，但其标题赫然指出 Sora 这类视频生成模型是“世界的模拟器”。

OpenAI 想强调，Sora 不是单纯的视频生成模型，不只是视频行业的颠覆者，而是“世界的模拟器”——它打开了一条通往模拟物理世界的有效路径。

OpenAI 仅列举了作为物理世界的模拟器应具备的几个特点和例子——3D一致性、远程相关性、物体持久性、与世界互动等，却并未对“什么是世界的模拟器”做任何定义和具体分析。

但我们大概可以总结出它的逻辑：Sora生成的视频能够在相当长的时空范围内，不违反物理世界的常见规律（比如重力、光电、碰撞等）。如果模型规模进一步提升，它有可能模拟生成物理世界的一切视频。

我们不禁疑问，为什么 OpenAI 在此时提出“模拟器”这一概念，它究竟是什么？如何成为“世界的模拟器”？与单纯的视频生成模型有什么逻辑关系？进而，一个能够模拟复杂世界动态的 AI 会将人类带往何处？

在谈物理世界的模拟器之前，我们先重温一下虚拟世界的模拟器——ChatGPT。

ChatGPT 是虚拟思维世界的“模拟器” ？

何谓“模拟器”，顾名思义，如同动态镜像一般，模拟器是可以逼真“反映”虚拟世界或现实世界的模型或系统。

游戏可视为一种对现实世界的模拟，所谓数字世界。

游戏的数字世界通常有一个既定的环境，包括人物、场景、功能道具等，还有一个起始的配置。给以目标指令，按下“start”，游戏主角便可以开始出发探索这个世界，与之互动。

比如在小游戏《超级马里奥》中，主角马里奥和每一关卡的场景都是既定的环境，小马里奥只身出场是起始配置，在规则下赢得金币是目标指令，“start”游戏开始，直达旅程目标。

这就是一个最简单模拟器的模拟过程，构造了一个既定场景的小世界。

在 ChatGPT 这类应用中，我们通常可以为模型设置角色，例如设置为用户的助理、教师或伴侣（可视为环境），用户就可以给出目标指令开始与之交互。

比如可以让 ChatGPT 写一篇关于 Sora 的文章，给它一段开头，ChatGPT 就会续写整篇；给定一段故事结尾，它可以补足故事的来龙去脉；给出一段故事节选，它可以展开前后两端的想象，予以扩写；给定完整的篇幅，它也可以缩写摘要。成篇非常顺畅丝滑，符合文法和逻辑。

这些语言任务的完成，其实是在模拟创作者的思维过程。

而对创作者思维的模拟，需要遵从思维背后的逻辑和常识。比如 ChatGPT 在续写 Sora 原理的文章时，会围绕深度学习和语言模型层层推进，逻辑线条合理，而不会跳跃到辛亥革命或咖啡机使用指南。

ChatGPT 作为语言模型，通过“语言”这一思维的载体，可以多方面模拟虚拟世界中的各种场景和角色（合理丝滑的故事线），成为虚拟世界的“模拟器”。

既然 ChatGPT 对答如流，也能模拟不同风格的文学家、诗人写诗作文，作品不违反常识，也符合人类思维规律，那是否说明它就掌握了这些规律呢？

功能主义角度的回答是肯定的。我们可以认为ChatGPT是懂得思维的，是理解思维世界的，具有自己的认知。虽然我们没有一一教他具体的思维逻辑和常识，但它读遍浩瀚的书籍数据，已然从数据中汲取了海量的知识，掌握了知识背后的思维逻辑。

ChatGPT这类语言模型从语言大数据中的学习，实际上就是在模拟一个充满了人类思维和认知映射的虚拟世界。

今天的ChatGPT已经攻下了虚拟世界“模拟器”的堡垒。它所反映的人类认知，包括常识、百科知识以及推理逻辑，实际上已经远远超过了绝大部分人类个体。

那么物理世界的模拟器会以何种方式呈现？

何为物理世界的模拟器？遵循物理世界规律

如同人类的思维世界要前后自洽，不违反常识，遵循分析归纳、逻辑推理等“规律”（统称思维逻辑），物理世界也有背后的“规律”，包括能量守恒定律、热力学定律、力的相互作用定律等等。

比如苹果不能突然在空中漂浮，这不符合牛顿的万有引力定律；比如在光线照射下，物体产生的阴影和高光的分布要符合光影规律等；比如物体之间产生碰撞后会破碎或者弹开。

作为“物理世界的模拟器”，需要能够在虚拟环境中重现物理现实，为用户提供一个逼真且不违反“物理规律”的数字世界。

技术上至少有两种方式可以实现这样的模拟器，一种是通过大数据学习出一个AI系统来模拟这个世界，比如说本文讨论的 Sora。

另外一种是弄懂物理世界各种现象背后的数学原理，并把这些原理手工编码到计算机程序里，从而让计算机程序“渲染”出物理世界需要的各种人、物、场景以及他们之间的互动。

虚幻引擎（Unreal Engine，UE）就是这种物理世界的模拟器。它内置了光照、碰撞、动画、刚体、材质、音频、光电等各种数学模型。一个开发者只需要提供人、物、场景、交互、剧情等配置，系统就能做出一个交互式的游戏，这种交互式的游戏可以看成是一个交互式的动态视频。

UE 这类渲染引擎所创造的游戏世界已经能够在某种程度上模拟物理世界，只不过它是通过人工数学建模及渲染而成，而非通过模型从数据中自我学习。而且，它也没有和语言代表的认知模型连接起来，因此本质上缺乏世界常识。而 Sora 代表的AI系统有可能避免这些缺陷和局限。

为什么 Sora 有望成为世界的通用模拟器？

不同于 UE 这一类渲染引擎，Sora 并没有显式地对物理规律背后的数学公式去“硬编码”，而是通过对互联网上的海量视频数据进行自监督学习，从而能够在给定一段文字描述的条件下生成不违反物理世界规律的长视频（虽然目前长度只有一分钟，但是完全碾压了此前有数秒限制的类似竞品，如曾被热捧的 Pika 和 Runway）。

与 UE 这一类“硬编码”的物理渲染引擎不同，Sora 视频创作的想象力来自于它端到端的数据驱动，以及跟LLM这类认知模型的无缝结合。

端到端的数据驱动更加通用、更方便迭代提升

与历史上所有的数据驱动的端到端AI系统一样，Sora 的优势是如果数据给力，数据量足够大，它可以覆盖各种各样的边界条件下的复杂度。与之相比，UE 能够硬编码的数学原理和场景模版毕竟是有限的，更何况很多物理世界的现象，人类还没有发现其背后的数学原理。

所以很多时候，UE游戏开发者不得不牺牲用户体验，或者手工对某些特殊情况“头痛医头”地做针对性专门编码。比如，由于材质和碰撞模型的不完善，大家经常看到数字人直播时的穿模现象（手插到肚子里去了），而要解决穿模问题得做很多额外的工作。

以迭代完善的角度，对于数据驱动的AI系统，我们只要利用摩尔定律，不停地加大数据和算力，系统就会自动越来越完善。而“硬编码”的系统则依赖于“人工”的努力和进展。

与认知模型的无缝融合让多模态模型更加通用和鲁棒

与很多人一样，我们为 Sora 视频的高质量所折服，但让我们真正兴奋的是，Sora 类视频生成模型的架构终于向 LLM 的架构靠近。

比如 Sora 采用 Transformer 作为模型的骨架来学习文本和视频的关系以及视频内部的时空关系。又比如 Sora 把视频数据 token 化。这样的好处是视频生成模型能跟 LLM 在模型层面无缝融合。

虽然我们现在无法判断 Sora 的训练是否将 LLM 作为起点，然后再加入视频的模态继续训练。但是几乎可以肯定的是，未来的多模态模型都会把 LLM 作为起点，从而把 LLM 的认知能力迁移到下游的其它模态里。

这既提升了下游模型的智能天花板，也大大降低了下游模型的数据需求。笔者多次强调，这种跨模态的知识迁移可能是 LLM 对AI建模的最大贡献，已经在RT-2、Gemini、出门问问魔音工坊的语音大模型等很多实践中得到证明。

为什么LLM的认知赋能及其与视频模型的无缝融合这么重要？

前文提到如果视频生成模型要成为世界的模拟器，那它生成的视频必须得符合物理规律。我们可以从大量的视频数据里学习这些规律，也可以直接继承语言模型里海量的常识，而继承这些常识会大大降低对视频数据的质量和数量的需求，也会大大降低模型学习的难度。

比如，如果我们让 Sora 生成一只杯子掉在地板上的视频。今天的大语言模型，比如出门问问的“序列猴子”，就含有玻璃会碎、水会溅出等常识（见下图）。

有了这些常识，视频生成模型将不再需要大量的类似玻璃掉地的视频数据来训练，从而大大降低了生成逼真视频的难度。语言模型还包含了对其它物理规律（比如声光电、碰撞等）的各种描述。

所以，如果 Sora 训练的基础是一个语言模型，这个模型不仅仅处理文本数据，而且继承了对世界常识的理解。

通过引入多模态数据处理能力——特别是视频与文本对应的数据——Sora 能够实现更深层次的Grounding，即将语言的虚拟概念与物理世界的具体实例紧密关联。

这种能力使得 Sora 在模拟物理世界时，能够更准确地反映出现实世界的复杂性和多样性。具象的视频训练数据总是有限的，因此模型所能学到的物理现象总有局限。

但语言模型中的物理常识几乎是面面俱到的，这是由语言作为思维认知模型的本性所决定的。这种知识迁移弥补了视频数据不可能面面俱到的短板。

语言模型是多模态大模型的核心，必将居于独一无二的中心赋能地位。而“视频”作为物理世界的映像，是世界模型渲染出来的结果。

相比语言数据，通过视频大数据学习到的模型是“模型的模型” ，同时学到了很多物理世界规律，让模型更加逼近模拟物理世界。

文本与视频的区别在于，前者是理解人类的逻辑思维，后者在于理解物理世界。所以，视频生成模型 Sora 如果能很好跟文本模型 LLM 融合，那它真有望成为世界的通用模拟器。如果有一天，这样的系统自己通过模拟驾车场景，学会了在城市复杂的交通环境下开车，我们应该也不会奇怪。

我们认为，Sora 之所以有潜力成为下一代物理世界模拟器的翘楚，主要归功于其基于多模态大模型的设计理念及其实现中巨大算力和工程能力。

Sora 在视频赛道重现 ChatGPT 式的成功，很可能得力于其把虚拟世界的模型（LLM）落地到具象化的物理世界模型（视频生成），如果现在不是这样，将来也大概率是。

能生成世界，就意味着理解世界？

类比语言模型，面对ChatGPT的对答如流、通情达理，我们反思语言模型到底是否学会了“思维”和“理解”？

虽然尚无法从原理上解释，但从结果上看，它与基于对语言的深刻理解所呈现出来的行为是一致的，我们可以认为它其实已经学会了虚拟世界的“思维”和“理解”；那今天的 Sora 已经可以在长时空的范围里生成不违反物理规律和常识的视频，我们是否也可以认为，它已经理解了物理世界？它具备了世界模型的能力？

模拟物理世界，Sora 是唯一解法吗？

如果 Sora 深度融合 LLM （如 ChatGPT）被认知智能充分赋能，它的确有望成为“世界的模拟器”。除此之外，还有其他成为世界模拟器的可能性解法吗？另外一种可能是：ChatGPT + UE。

如果我们能把自然语言模型（如 ChatGPT）与物理渲染引擎（如 UE）结合起来，把自然语言模型的描述转换成 UE 的描述语言，然后由 UE 来渲染出视频，是不是也意味着一个可行的物理世界模拟器？

在很多对通用性的要求不那么高的场景中，这可能是优于 Sora 这种端到端模型的选择，估计未来很快会看到这样的尝试。但是，UE的天花板就是整个系统的天花板。

另外一个相关话题，Sora 的训练可能用了 UE 合成的数据，但 Sora 模型本身应该没有调用 UE 的能力。

从虚拟到物理，如果世界皆可被模拟，什么是现实？

如果说这个世界（无论是虚拟世界还是物理世界），其背后存在着简单的规律和模型，那么文本和视频等模态就是这些规律的具体呈现，也可以说是渲染。

OpenAI 的 ChatGPT 和 Sora 通过互联网上海量的自然的文本和视频数据，“隐式”地学会了这些数据背后的规律和模型。那么，未来是否有一天，ChatGPT 和 Sora 之类的系统还将融合味觉、触觉等其他模态，从而可以模拟我们的整个世界呢？

如果这一天到来，什么是现实呢？我们是否还那么坚定地相信我们这个物理世界不是被模拟出来的？科幻电影《黑客帝国》所描述的世界是否仍是科幻呢？这是现代版的庄周梦蝶，古老的哲学思辨在后现代的技术浪潮中再度冲击我们的信仰，细思有点恐。

展开想象，为什么AI模拟器不可以模拟巴以冲突、中美关系，模拟人类从山顶洞走向农耕文明的过程呢？“世界模拟器”通过模拟不同的事件和情景，预测未来的发展趋势，或可辅助决策制定。Sora 类不仅能够模拟政治经济、人类社会等宏观层面的动态，也应该可以深入到病毒传播、交通规划等微观领域。这一切最终是否会改变各种学科研究的方式？

我们可以展望，AI 有能力通过模拟学会各种物理世界的技能。比如城市驾驶，AI 可以从文本里学到各种驾驶规则，自己渲染一些交通视频场景并在这些场景里学习提升，从而学会基本驾驶技能。当然，模型最后还是会有真正物理环境下的Fine Tuning。如果机器人能够自主学习各种技能，这是否也会改变机器人服务世界的发展路径？

总之，如果未来的 AI 既理解了人类思维，又理解了物理世界，而且还不知疲倦地自主模拟学习，下一步将会“涌现”怎样的斑斓世界？人类如何自处？

暴力美学能抵达 AGI 吗？

回看OpenAI的最初胜利，主要并非算法上的创新，而是“暴力美学”的胜利。

如今，以GPT为代表的“暴力美学”已成为工业界凝聚了共识的做 AI 的方法论：把模型架构做得简简单单，但足够通用，然后把精力放在猛搞数据和算力上。

这一次 Sora 的成功延续了 OpenAI 的暴力美学的套路。把 Diffusion Model 里的 Unet 换成 Transformer、把视频的时空 Patch 转换成 Token 等之类的想法应该很多人拍脑袋都能想到，都是对模型的简化从而更便于 Scale Up。但是，能够坚信这些简单的 ideas、并有能力和有条件把规模真正做上去修成正果的却是凤毛麟角。

OpenAI 这次关于 Sora 的技术 blog 里的两段话，把这种信念的力量体现得淋漓尽致。

“These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world， and the objects， animals and people that live within them.”

“We find that video models exhibit a number of interesting emergent capabilities when trained at scale. These capabilities enable Sora to simulate some aspects of people， animals and environments from the physical world. These properties emerge without any explicit inductive biases for 3D， objects， etc.—they are purely phenomena of scale.”

第一段话表达了他们对 Scaling 的信念，而第二段话强调了 Scaling 导致涌现的实证。

这次 Sora 的发布又让很多人对 AGI 的实现更加乐观了，可能也让心高气盛的 OpenAI 对 Scaling Law 和暴力美学的信念进一步坚定。但是，沿着 Scaling Law 和暴力美学一定能抵达 AGI 吗？面对飞速发展的AI科技，也许只能拷问自己，到底是因为看见而相信，还是因为相信而看见？

可以肯定的是，Sora 如果真能实现对物理世界的模拟、能够跟 LLM 代表的虚拟世界无缝融合，那它必然是通往 AGI 路上的里程碑。

结语

当我们回到人类文明的前夜，从用石头砸开坚果，从山洞走向茅屋，一一回望人类最早的科技成就——石制工具、火、衣服、长矛和弓箭是如何被发明的。正是有了让能力边界不断延伸的它们，人类才得以走出非洲。

其中最重要的一项能力——语言能力，它使现代智人能有效传递信息，不断完成物理世界的任务，最终将尼安德特人赶到比利牛斯半岛的尽头，成为世界主人。

而今天，掌握人类语言的AI，将能进一步地通过视频生成模拟世界，面向我们为之雀跃的 AGI 时刻，是否已是另一种文明的前夜？

本文来自微信公众号：飞哥说AI（ID：FeigeandAI），作者：李志飞李维、高佳

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

这个行业的企业，已经发不起工资了……

Previous 2024年2月19日

Sora到底懂不懂物理世界？

Next 2024年2月19日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

为什么说Sora是世界的模拟器？

相关推荐