Sora是怎么训练出来的

2024年2月17日 19:52 • 未来科技

简单地说，OpenAI集大成了先前的技术，而其中的每一项技术，都有过论文介绍，OpenAI在前人及同行研究的基础之上，构建出Sora，一个非常重要的原因，是它们坚信数据-Transformer-扩散-涌现这一法则。(2023).

（注：15～18，Transformer已经被证明在计算机视觉中显示出非凡的扩展特征，能训练出适用于任何宽高比和分辨率的视频。2023.

（注：Sora是一个扩散Transformer。2021.

（注：27～28，Transformer在图像生成方面具有非凡的扩展特征。

一分钟长的文生视频大模型Sora，如此逼真。OpenAI再次震惊了世界。

一分钟长的视频，是更漫长的征程的开端。OpenAI称他们所做的事情，是构建一个“物理世界的通用模拟器”。

Sora生成的电影预告片

OpenAI网站上的技术报告，主要提供了训练Sora的方法，以及对其能力和局限性的定性评估。技术报告的13位作者中，有4位华人。

报告也明确地说，不提供模型和实现细节。尤其是公众和监管者最关注的数据来源。但是，这篇报告所列举的32篇参考论文，已经提供了所有的方法和技术。

OpenAI用一句话概括：“我们利用了一种在视频和图像潜码的时空块上操作的transformer架构”。

具体点说就是：这帮大牛训练了一个网络，用于降低视觉数据的维度。许多专家认为其视频来源是Youtube。这个网络以原始视频为输入，输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间内接受训练，随后也在此空间内生成视频。他们还训练了一个相应的解码器模型，将生成的潜码映射回像素空间。

应该掌握四个关键词：潜码（latent code），时空块（spacetime patches），扩展 （scaling），通用模拟器 （general purpose simulators）。

许多之前的研究已经通过各种方法研究了视频数据的生成模型，包括循环网络、生成对抗网络、自回归变换器和扩散模型。这些工作通常专注于视觉数据的一个狭窄类别、较短的视频，或者固定大小的视频。Sora是一个视觉数据的通用模型——它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像，最长可达一分钟的高清视频。

Sora是一个扩散模型；给定输入的噪声块（和条件信息，如文本提示），它被训练用于预测初始的“干净”块。重要的是，Sora是一个扩散Transformer，在多个领域展示了显著的扩展性能，包括语言建模、计算机视觉和图像生成。

Sora能够适应宽屏1920x1080p视频、竖屏1080×1920视频以及它们之间的所有格式。这使得Sora能够直接以不同设备的原生宽高比创建内容。它还允许我们在使用相同模型以全分辨率生成之前，快速原型化较小尺寸的内容。

简单地说，OpenAI集大成了先前的技术，而其中的每一项技术，都有过论文介绍，OpenAI在前人及同行研究的基础之上，构建出Sora，一个非常重要的原因，是它们坚信数据-Transformer-扩散-涌现这一法则。下面是所有的参考论文及其为Sora所用之处：

1. Srivastava， Nitish， Elman Mansimov，和 Ruslan Salakhudinov. “使用LSTMs进行视频表示的无监督学习.” 国际机器学习会议. PMLR， 2015.

2. Chiappa， Silvia，等. “循环环境模拟器.” arXiv预印本 arXiv:1704.02254 (2017).

3. Ha， David，和 Jürgen Schmidhuber. “世界模型.” arXiv预印本 arXiv:1803.10122 (2018).

（注：1～3，许多之前的研究已经通过各种方法研究了视频数据的生成模型，包括循环网络。）

4. Vondrick， Carl， Hamed Pirsiavash，和 Antonio Torralba. “生成具有场景动态的视频.” 神经信息处理系统进展 29 (2016).

5. Tulyakov， Sergey，等. “MoCoGAN: 分解运动和内容以生成视频.” IEEE计算机视觉和模式识别会议论文集. 2018.

6. Clark， Aidan， Jeff Donahue，和 Karen Simonyan. “在复杂数据集上生成对抗视频.” arXiv预印本 arXiv:1907.06571 (2019).

7. Brooks， Tim，等. “生成动态场景的长视频.” 神经信息处理系统会议进展 35 (2022): 31769-31781.

（注：4～7，生成对抗网络的方法与技术。）

8. Yan， Wilson，等. “VideoGPT: 使用VQ-VAE和transformers生成视频.” arXiv预印本 arXiv:2104.10157 (2021).

9. Wu， Chenfei，等. “Nüwa: 为创造神经视觉世界进行视觉合成预训练.” 欧洲计算机视觉会议. 瑞士: 施普林格自然， 2022.

（注：8～9，自回归Transformer。）

10. Ho， Jonathan，等. “Imagen视频: 使用扩散模型生成高清视频.” arXiv预印本 arXiv:2210.02303 (2022).

11. Blattmann， Andreas，等. “对齐你的潜码: 使用潜在扩散模型合成高分辨率视频.” IEEE/CVF计算机视觉和模式识别会议论文集. 2023.

12. Gupta， Agrim，等. “使用扩散模型生成逼真视频.” arXiv预印本 arXiv:2312.06662 (2023).

（注：10～12，扩散模型，如何逼真。）

13. Vaswani， Ashish，等. “注意力就是你所需要的一切.” 神经信息处理系统进展 30 (2017).

14. Brown， Tom，等. “语言模型是小样本学习者.” 神经信息处理系统会议进展 33 (2020): 1877-1901.

（注：13～14，作者从大型语言模型中受到的启发是，通过对互联网级数据进行训练，可以获得通用能力。）

15. Dosovitskiy， Alexey，等. “一幅图像值16×16个词: 大规模图像识别的transformers.” arXiv预印本 arXiv:2010.11929 (2020).

16. Arnab， Anurag，等. “Vivit: 视频视觉transformer.” IEEE/CVF国际计算机视觉会议论文集. 2021.

17. He， Kaiming，等. “掩码自动编码器是可扩展的视觉学习者.” IEEE/CVF计算机视觉和模式识别会议论文集. 2022.

18. Dehghani， Mostafa，等. “Patch n’Pack: NaViT，适用于任何宽高比和分辨率的视觉transformer.” arXiv预印本 arXiv:2307.06304 (2023).

（注：15～18，Transformer已经被证明在计算机视觉中显示出非凡的扩展特征，能训练出适用于任何宽高比和分辨率的视频。）

19. Rombach， Robin，等. “使用潜在扩散模型合成高分辨率图像.” IEEE/CVF计算机视觉和模式识别会议论文集. 2022.

（注：通过把视频压缩成为低维度的潜码空间，把视频转换为时空块。）

把视觉数据变成时空块

20. Kingma， Diederik P.，和 Max Welling. “自编码变分贝叶斯.” arXiv预印本 arXiv:1312.6114 (2013).

（注：训练出一个能减少视觉维度数据的网络。）

21. Sohl-Dickstein， Jascha，等. “使用非平衡热力学的深度无监督学习.” 国际机器学习会议. PMLR， 2015.

22. Ho， Jonathan， Ajay Jain，和 Pieter Abbeel. “去噪扩散概率模型.” 神经信息处理系统进展 33 (2020): 6840-6851.

23. Nichol， Alexander Quinn，和 Prafulla Dhariwal. “改进的去噪扩散概率模型.” 国际机器学习会议. PMLR， 2021.

24. Dhariwal， Prafulla，和 Alexander Quinn Nichol. “扩散模型在图像合成上胜过GANs.” 神经信息处理系统会议进展. 2021.

25. Karras， Tero，等. “阐明基于扩散的生成模型的设计空间.” 神经信息处理系统进展 35 (2022): 26565-26577.

（注：21～25， Sora是一个扩散模型，给定输入的噪声块（和条件信息，如文本提示），它被训练用于预测初始的“干净”块。）

26. Peebles， William，和 Saining Xie. “用transformers扩展扩散模型.” IEEE/CVF国际计算机视觉会议论文集. 2023.

（注：Sora是一个扩散Transformer。）

Transformer跨越不同的模态，其扩展功能依然有效

27. Chen， Mark，等. “像素的生成预训练.” 国际机器学习会议. PMLR， 2020.

28. Ramesh， Aditya，等. “零样本文本到图像生成.” 国际机器学习会议. PMLR， 2021.

（注：27～28，Transformer在图像生成方面具有非凡的扩展特征。）

29. Yu， Jiahui，等. “扩展自回归模型以生成内容丰富的文生图.” arXiv预印本 arXiv:2206.10789 2.3 (2022): 5.

30. Betker， James，等. “用更好的图说改善图像生成.” 计算机科学. https://cdn.openai.com/papers/dall-e-3.pdf 2.3 (2023): 8

（注：29～30，使用了Dall.E3的字幕和标题技术，用于视频。）

31. Ramesh， Aditya，等. “使用CLIP潜码的分层文本条件图像生成.” arXiv预印本 arXiv:2204.06125 1.2 (2022): 3.

32. Meng， Chenlin，等. “Sdedit: 使用随机微分方程的引导图像合成和编辑.” arXiv预印本 arXiv:2108.01073 (2021).

（注：31～32，用Dall.E2和Dall.E3图像生成视频。）

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

Sora会对视频内容创作有什么影响？

Previous 2024年2月17日

微软与苹果：竞逐第一之路

Next 2024年2月17日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

Sora是怎么训练出来的

相关推荐