为什么OpenAI可以跑通所有AGI技术栈？

2024年2月19日 21:27 • 未来科技

Sora 的出现，再次证明了 OpenAI 试图让计算机去模拟真实物理世界的野心，以及它对于自身技术路线的坚持。从 OpenAI 发布的 Sora 的技术报告中，我们可以看到很多 OpenAI 对于过往大语言模型训练成功经验的复用。

从文本生成模型 GPT、文生图模型 DALL·E，到文生视频模型 Sora，OpenAI 可以说成功跑通了 AGI 的所有技术栈，为什么是 OpenAI 而不是谷歌、Meta？

加州大学伯克利分校（UC Berkeley）计算机科学 PHD、知乎作者 SIY.Z 从技术实现上分析了 Sora 成功的部分原因，以及从商业和技术趋势上分析了 OpenAI 能跑通全部技术栈的原因，并且尝试预测了 OpenAI 下一步的进展，Founder Park 授权转载，并进行了部分删减。

一、Sora 的技术分析：借鉴了 LLM 的成功经验

Sora 多么牛逼多么真实之类的就不多谈了，只用一句话就能概括：随便拿视频中的一帧出来，效果都不亚于 Dalle-3 精心生成一张图片，而且这些图片放在一起可以构成基本符合真实世界物理逻辑的视频。而且 Sora 本身其实也可以做图片生成，只是大材小用了。

如果限制必须用一个词来展现 OpenAI 的最核心的技术，我觉得便是 scaling law——即怎么样保证模型越大，数据越多，效果就越好。Sora 也不例外。一句话概括 Sora 的贡献，便是：在足量的数据，优质的标注，灵活的编码下，scaling law 在 transformer + diffusion model 的架构上继续成立。在 Sora 的技术报告中可以看出，OpenAI 实现 scaling law 的想法其实很大程度上沿袭了大语言模型的经验。

1. 足量的数据

训练 Sora 用了多少数据？不出意外，OpenAI 在整个技术分析中一点都没有提数据的事情，这可太 CloseAI 了。但是鉴于内容的丰富性（比如甚至可以生成相当连贯一致的 Minecraft 游戏视频），我猜测很可能是大量的 YouTube 视频，同时也不排除有合成数据（比如 3D 渲染等）。未来可能用整个 YouTube 上的视频来训练视频生成模型，就和大家用 Common Crawl 训练大语言模型一样。

2. 灵活的编码（visual patches）

在大语言模型的构建中，一个非常重要的部分便是它的 tokenizer。tokenizer 使得任何长度和内容的文本都能编码成语言模型可以直接处理（输入/输出）的对象，即 embeddings。embeddings 在 Sora 中的对应物称为 visual patches，tokenizer 对应的是 video compression network，应该是某种 convolutional VAEs（文章没有说明是不是 VQ-VAE）。

具体做法是用 video compression network（visual encoder）首先将输入视频的时间和空间维度同时进行压缩，编码成一个和视频大小成正比的 3D visual patch array，然后再将它按照某种顺序展开成 1D array of patches，送入到 transformer model 中（具体方式应该是参考了 https://arxiv.org/abs/2212.09748）。这样带来了不少好处：

灵活的分辨率。Sora 可以生成 1920x1080p（横屏）– 1080x1920p（竖屏）之间任何形状的视频。这也让 OpenAI 可以在早期使用低分辨率的视频来试错。
生成的视频的边框更加合理。OpenAI 试过使用固定分辨率，这样带来一个很显然的问题——需要裁剪视频。这种数据的 bias 会被带入到模型中，促使模型生成很多内容在框外的视频。

3. 优质的标注

和 DALL·E 3 一样，OpenAI 用内部工具（很可能基于 GPT4-v）给视频详尽的描述，提升了模型服从 prompt 的能力，以及视频的质量（还有视频中正确显示文本的能力）。我认为这是非常关键的一点，是 OpenAI 的杀手锏，对于视频尤其重要。原因很简单，可以从两个角度解释：

神经网络是个单射函数，拟合的是文本到视频的映射。视频的动态性非常高，也就是有很大的值域，为了把这个函数学好，需要定义域也很大很丰富，这就需要复杂的 prompt 了。
详细的文本也迫使神经网络学习文本到视频内容的映射，加强对于 prompt 的理解和服从。

另外一个细节：这种详尽的描述会导致在使用时的 bias——用户的描述都相对较短。和 DALL·E 3 一样，OpenAI 用 GPT 来扩充用户的描述来改善这个问题，并提高使用体验和视频生成的多样性。

除了文本以外，Sora 也支持图像或者视频作为 prompt，支持 SDEdit，并且可以向前或者向后生成视频，因此可以进行多样的视频的编辑和继续创作，比如生成一个首尾相连重复循环的视频：

甚至可以连接两个截然不同的视频：

4. Transformer + diffusion model 的架构

不算特别意外，OpenAI 使用了 Transformer 作为主要架构，结合 diffusion model，幸好还不是端到端的 autoregressive 模型，否则太吓人了【不过这样一来，Transformer 在自然语言处理、图像视频生成、语音合成（最近 amazon 的工作 BASE TTS：Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data）、科学计算（AlphaFold，GraphCast）等最困难的领域都孤独求败了。Transformer 架构在图像分类等领域还没有占领绝对优势很难说是不是因为任务太简单了或者数据太少了】。

我觉得使用 diffusion model 的主要原因是 diffusion model 能够生成非常精细的细节，且可以玩出各种有趣的操作（比如 SDEdit）。架构上大概率参考了 Scalable Diffusion Models with Transformer，这是 Sora 技术分析中引用的文章，Sora 部分透露出的细节和这篇文章比较吻合。Sora 这次再次验证了 Transformer 架构能够胜任 scaling law。

5. 涌现现象

OpenAI 每次提到 scaling law 时几乎都会伴随着 emerging properties，这次也不例外，有以下几点（其实这里放的视频才是真正和目前视频生成区别开的，具体什么意思不用多说一看便知）。

保证良好的 3D 空间性质（视角变换，物体遮挡等的合理性）；

时间上物体的连贯性（不会因为遮挡或者时间流逝改变物体原有状态）；

模拟现实物理的交互；

连数字世界都可以模拟（这个生成的 Minecraft 视频真的惊到我了，一开始我还以为是参考视频，没想到是生成的）。

然后让我们看看 Sora 之前的很多视频生成模型的水平（因为太糟甚至成了梗），高下立判（声音和古怪内容警告）。

6. Sora 的缺陷

一句话：还不足以完全模拟所有现实中的物理过程，比如流体动力学（不过如果这个可以看视频就准确模拟出来就太可怕了，都让人怀疑世界是虚拟的了）：

一个真正的物理世界模型，估计给它放一段卫星云图视频，它就能把下面几天的气候变化给模拟出来，实现用视频生成模型预测天气，看股市曲线变化预测股价 lol，这样来说，OpenAI 要走的路还有很长。

二、OpenAI 的愿景是让 AI 理解世界

Sora 不止步于视频生成工具，它的背后是 OpenAI 的宏大愿景：开发出能够让计算机理解我们世界的算法和技术，而 OpenAI 认为最有可能的技术之一是生成模型（generative model）。

OpenAI 的 blog 中对 Sora 的定位正是“作为世界模拟器的视频生成模型”。这里是 OpenAI 2016 年一篇文章的原话：

我们常常会忽略自己对世界的深刻理解：比如，你知道这个世界由三维空间构成，里面的物体能够移动、相撞、互动；人们可以行走、交谈、思考；动物能够觅食、飞翔、奔跑或吠叫；显示屏上能展示用语言编码的信息，比如天气状况、篮球比赛的胜者，或者 1970 年发生的事件。

这样庞大的信息量就摆在那里，而且很大程度上容易获得——不论是在由原子构成的物理世界，还是由数字构成的虚拟世界。挑战在于，我们需要开发出能够分析并理解这些海量数据的模型和算法。

生成模型是朝向这个目标迈进的最有希望的方法之一。要训练一个生成模型，我们首先会在某个领域收集大量的数据（想象一下，数以百万计的图片、文本或声音等），然后训练这个模型去创造类似的数据。这个方法的灵感来自于理查德·费曼的一句名言：

“我所无法创造的，我也不能理解。”（即：要真正理解一个事物，你需要去创造它。）

这个方法的妙处在于，我们使用的神经网络作为生成模型，其参数的数量远远少于训练它们的数据量，这迫使模型必须发现并有效地吸收数据的精髓，以便能够创造出新的数据。

当年最先进的生成模型止步于 DCGAN，2016 年文章中的附图展示了当时的最先进效果：

这确实让人不得不相信 AGI 也许在 21 世纪确实可以实现。而对于 OpenAI，实现 AGI 的一个途径便是开发出能够让计算机理解我们世界的算法和技术（生成模型），Sora 是非常重要的一步，即作为世界模拟器的视频生成模型。