技惊四座的Sora模型，参数只有30亿？

2024年2月18日 15:52 • 未来科技

Sora就是一个扩散Transformer

我们到目前为止学到了什么：

架构：Sora建立在我们的扩散Transformer（DiT）模型之上（发表于ICCV。

左图：展示了不同规模的扩散Transformer模型（如DiT-S、DiT-B、DiT-L和DiT-XL）在ImageNet数据集上生成256×256像素图像的性能。

尽管Sora没有在技术报告中披露重要的细节，但是构建这个扩散Transformer模型所依据的最重要的一批论文中，可以看到和推测出一些不为人知的“秘密”。

其中最重要的一篇论文的作者谢赛宁认为，这次推出Sora模型可能只有30亿参数，导致了一些图的效果很差。如技术报告中的第一个视频，即一位时尚女性漫步东京街头的那段，其中有三步走错了。尽管如此，接下来的迭代会非常快。

在Sora技术报告所引述的32篇论文中，第26篇毫无疑问是其中最重要的一篇。

Peebles, William & Saining Xie. “Scalable diffusion models with transformers.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

联合作者中，Peebles在伯克利读博士时在Meta AI的FAIR实习，与担任研究科学家的同事谢赛宁共同完成了这项研究。目前谢赛宁是纽约大学数据科学中心的助理教授。

Peebles目前是OpenAI Sora项目的共同负责人，在Sora技术报告作者中，他的名字排到第二。

关于Sora，谢赛宁在社交媒体X上发表了他的看法，如下：

这是我对Sora技术报告的看法，其中包含了大量的猜测，这些猜测可能完全错误。首先，非常感谢团队分享有用的见解和设计决策——Sora非常了不起，将会改变视频生成社区。

Sora就是一个扩散Transformer

我们到目前为止学到了什么：

架构：Sora建立在我们的扩散Transformer（DiT）模型之上（发表于ICCV 2023）——简而言之，它是一个带有Transformer骨架的扩散模型：DiT = [VAE编码器 + ViT + DDPM + VAE解码器]。

注：VAE：变分自编码器（Variational Autoencoder）。它是一种深度学习模型，用于在无监督学习的框架下学习数据的高维概率分布。VAE通常由两部分组成：编码器和解码器。

DDPM：去噪扩散概率模型（Denoising Diffusion Probabilistic Models）。这是一类生成模型，用于通过模拟反向扩散过程来生成数据。DDPM模型的核心思想是将数据生成过程建模为一系列渐进的去噪步骤，这些步骤逐渐将噪声数据转换为干净的数据样本。

根据报告，似乎没有太多额外的附加功能。

“视频压缩网络”：看起来就像是一个VAE，但是训练在原始视频数据上。标记化在获取良好的时间连贯性方面可能起着重要作用。顺便说一下，VAE是一个卷积网络，所以从技术上讲，DiT是一个混合模型。

Sora可能只有3B参数

当比尔和我在DiT项目上工作时，我们没有专注于创新性，而是优先考虑了两个方面：简单性和可扩展性。这些优先事项不仅仅提供了概念上的优势。

简单性意味着灵活性。人们常常忽视的是，原始的ViT让你的模型在处理输入数据时变得更加灵活。例如，在掩蔽自编码器（MAE）中，ViT帮助我们仅处理可见的块并忽略掩蔽的块。同样，Sora“可以通过在适当大小的网格中排列随机初始化的块来控制生成视频的大小。”UNet并不直接提供这种灵活性。

注：MAE：掩蔽自编码器（Masked Autoencoder），这是一种自编码器架构，特别设计用于高效处理大规模图像数据。MAE通过在输入图像上随机应用掩蔽（即遮盖一部分像素或图像块）的方法，迫使模型重建被掩蔽的部分，从而学习到图像的内在表示。

UNet是一种流行的卷积神经网络架构，特别适合图像分割任务，其中目标是对图像中的每个像素进行分类，以确定它属于哪个区域或对象。应用于医疗成像、遥感图像处理和自然场景理解等。

猜测：Sora可能还使用了谷歌的Patch n’ Pack（NaViT），使DiT能够适应不同的分辨率/持续时间/宽高比。

注：Sora技术报告引述了这篇论文：Dehghani， Mostafa， et al. “Patch n’Pack: NaViT， a Vision Transformer for any Aspect Ratio and Resolution.”

可扩展性是DiT论文的核心主题。首先，优化后的DiT在每Flop的墙钟时间上运行得比UNet快得多。更重要的是，Sora证明了DiT的扩展规律不仅适用于图像，现在也适用于视频——Sora复制了在DiT中观察到的视觉扩展行为。

猜测：在Sora报告中，第一个视频的质量非常差，我怀疑它使用的是一个基础尺寸的模型。信封背（简单）计算：DiT XL/2是B/2模型的5倍 GFLOPs，所以最终的16倍计算模型可能是3倍 DiT-XL模型大小，这意味着Sora可能有约3B参数——如果这是真的，这并不是一个不合理的模型大小。这可能表明，训练Sora模型可能不需要像人们预期的那样多的GPU——我期待未来的迭代会非常快。

左图：展示了不同规模的扩散Transformer模型（如DiT-S、DiT-B、DiT-L和DiT-XL）在ImageNet数据集上生成256×256像素图像的性能。性能是通过FID-50K分数来衡量的，较低分数表示更高图像质量和真实性。气泡大小表示不同模型计算复杂度，即所需GFLOPs（十亿次浮点运算）。随着模型规模的增加（从DiT-S到DiT-XL），性能（FID分数）也在提高。右图：展示了使用指导技术的最新扩散模型（如ADM-U-G、LDM-4-G和LDM-8-G）与DiT模型（如DiT-XL/2-G）的性能对比。其中的DiT-XL/2-G有较大气泡，表明它在GFLOPs方面相对较高，与其他模型相比，它实现了较低的FID分数，这意味着它在生成高质量图像方面更为高效。来源：Stable Diffusion Models with Transformers

数据是最关键的涌现因素

关键的收获来自于“涌现的模拟能力”部分。在Sora之前，长格式一致性是否能自行涌现，或者是否需要复杂的主题驱动的生成管道甚至是物理模拟器，这一点并不清楚。OpenAI已经展示了这些行为可以通过端到端训练实现，尽管并不完美。然而，有两个重要点尚未讨论。

训练数据：完全没有讨论训练来源和构建，这可能意味着数据很可能是Sora成功的最关键因素。

猜测：关于来自游戏引擎的数据已经有很多猜测。我也预计会包括电影、纪录片、电影长镜头等。质量真的很重要。非常好奇Sora的数据来自哪里（肯定不是YouTube，对吧？）。

2.（自回归）长视频生成：Sora的一个重大突破是能够生成非常长的视频。产生2秒视频与1分钟视频之间的差异是巨大的。

在Sora中，这可能是通过联合帧预测实现的，该预测允许自回归采样，但主要挑战是如何解决错误累积并通过时间维持质量/一致性。一个非常长的（和双向的）上下文用于条件设定？或者扩大规模是否可以简单地减少问题？这些技术细节可能非常重要，希望将来能被揭开神秘面纱。

DiT在Sora中大放异彩。我们NYU的团队最近发布了一款新的DiT模型，名为SiT。它具有完全相同的架构，但提供了更好的性能和更快的收敛速度。也非常好奇它在视频生成上的表现！

注：见论文SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

打工人，不要死在AI手里

Previous 2024年2月18日

扒一扒OpenAI Sora的开发团队

Next 2024年2月18日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

技惊四座的Sora模型，参数只有30亿？

相关推荐

Share To :