Sora一旦推出,峰值算力需要75万张H100GPU

下面我们介绍下其中关于训练与推理的部分:

从DiT到Sora训练计算量的外推

关于Sora的细节信息非常少,但我们可以再次查看显然是Sora基础的DiT论文,并从中推断出相关的计算数字。

如果类似Sora的模型占有重要市场份额时的推理计算量

在这一部分,我们根据Sora的计算需求,推测如果AI生成视频在流行视频平台如TikTok和YouTube上占有重要市场份额,将需要多少英伟达H100。

Sora何时推出?大约在年底。它非常受欢迎,一旦投入使用,不仅会对影视行业造成冲击,而且会在视频网站、社交媒体、电商平台,以及教育等领域得到广泛应用。它的物理世界模拟器的作用,以及“世界模型”的潜力也非常巨大。

问题来了,它需要多大算力?

风险投资机构Factorial Funds的Matthias Plappert,最近对Sora模型进行了剖析。他们推算的主要依据,是论文Scalable Diffusion Models with Transformers 中的数据。Sora模型在一定程度上是基于论文中所提出的、基于Transformer的架构的DiT(Diffusion Transformers)。论文的第一作者William Peebles目前在OpenAI负责Sora研究团队。

作者假设Sora推出后,将在Tiktok和Youtube上得到广泛的应用,推算出需要的算力相当于72万张英伟达H100 GPU。对比一下,目前Meta拥有的总算力,相当于65万张H100。

下面我们介绍下其中关于训练与推理的部分:

从DiT到Sora训练计算量的外推

关于Sora的细节信息非常少,但我们可以再次查看显然是Sora基础的DiT论文,并从中推断出相关的计算数字。最大的DiT模型DiT-XL有6.75亿个参数,总计算预算约为10^21次浮点运算。为了更容易理解这个数字,这相当于大约0.4个Nvidia H100 GPU运行一个月(或一个H100运行12天)

但是目前DiT仅对图像建模,而Sora是一个视频模型。Sora可以生成长达1分钟的视频。如果我们假设视频以24帧/秒编码,一个视频最多包含1440帧。Sora的像素到潜在映射似乎在空间和时间上都有压缩。如果我们假设与DiT论文中相同的压缩率(8倍),我们最终在潜在空间中得到180帧。因此,在直观地将DiT外推到视频时,我们得到了180倍的计算量倍增因子。

我们进一步认为,Sora的参数量明显大于6.75亿个。我们估计200亿参数的模型是可行的,这使我们在计算量上比DiT再多出30倍。

最后,我们认为Sora使用的训练数据集比DiT大得多。DiT在批量大小为256时经过300万步训练,即总计使用了7.68亿张图像(但要注意同一数据被重复使用了多次,因为ImageNet仅包含1400万张图像)。Sora似乎是在图像和视频的混合数据集上进行训练的,但除此之外我们几乎一无所知。

因此,我们简单假设Sora的数据集中有50%是静止图像,50%是视频,并且数据集比DiT使用的大10到100倍。然而,DiT在相同的数据点上反复训练,如果有更大的数据集可用,这种做法可能是次优的。因此,我们认为4到10倍的计算量倍增因子是一个更合理的假设。

将上述因素综合考虑,并分别计算额外数据集的低估计和高估计,我们得到以下计算结果:

* 数据集低估计: 10^21次浮点运算 x 30 x 4 x (180/2) ≈ 1.1×10^25次浮点运算

* 数据集高估计: 10^21次浮点运算 x 30 x 10 x (180/2) ≈ 2.7×10^25次浮点运算

这相当于4211至10528个Nvidia H100 GPU运行1个月的计算量。

推理计算与训练计算的比较

另一个值得考虑的重要因素,是训练计算与推理计算之间的对比。训练计算量非常大,但这是一次性的成本。相比之下,推理计算量虽然小得多,但每一次生成都意味着一次推理计算。因此,推理计算量会随着用户数量的增加而扩大,并变得越来越重要,特别是当一个模型被广泛使用时。

因此,观察“收支平衡点”是很有用的,即消耗在推理计算上的计算量,超过了训练期间消耗的计算量的时间点。

(左图对比DiT的训练与推理计算,右图对比Sora的训练与推理计算。对于Sora部分,我们的数据基于上文估计,因此不是完全可靠。我们还展示了两种训练计算的估计:一种低估计(假设数据集大小的倍增因子为4倍)和一种高估计(假设为10倍)。)

在上述数字中,我们再次利用DiT来推算Sora。对于DiT,最大的模型(DiT-XL)每步使用524×10^9次浮点运算,DiT使用250步扩散生成单张图像,因此总计为131×10^12次浮点运算。我们可以看到,收支平衡点在生成760万张图像后达到,此后推理计算将占主导。作为参考,用户每天大约上传9500万张图像到Instagram。 

对于Sora,我们将浮点运算次数外推为524×10^9次 × 30 × 180 ≈ 2.8×10^15次。如果我们仍然假设每段视频需250步扩散,那就是每段视频总计708×10^15次浮点运算。作为参考,这大约相当于每小时每个Nvidia H100生成5分钟视频。

收支平衡点在生成1530万(低估计)到3810万(高估计)分钟视频后达到,之后推理计算将超过训练计算。作为参考,每天约有4300万分钟视频上传到YouTube。

需要注意的是:对于推理来说,浮点运算次数并不是唯一重要的因素。内存带宽也是另一个重要因素。此外,现有研究正致力于减少所需的扩散步数,这可能导致推理计算量大幅降低,因此推理速度会更快。训练和推理阶段的浮点运算利用率也可能有所不同,在这种情况下,它们就变得很重要了。

不同模型之间的推理计算量比较

我们还观察了不同模态下不同模型的每单位输出推理计算量。这里的想法是,看看不同类型模型的推理计算量级别有多大差异,这对于规划和预测计算需求有直接影响。重要的是,我们要理解,由于不同模型工作于不同的模态,每个模型的输出单位也不尽相同:对于Sora,单个输出是一段1分钟长的视频;对于DiT,是一张512×512像素的图像;而对于Llama 2和GPT-4,我们将单个输出定义为一份长度为1000个token的文本文档。

(比较不同模型每单位输出的推理计算量,对于Sora是1分钟视频,对于GPT-4和LLama 2是1000个token的文本,对于DiT是单张512×512像素的图像。我们可以看到,我们对Sora推理的估计比其他模型昂贵,要高出数个数量级。)

我们比较了Sora、DiT-XL、LLama 2 70B和GPT-4,并以对数刻度绘制了它们的浮点运算次数。对于Sora和DiT,我们使用上文的推理估计值。对于Llama 2和GPT-4,我们使用经验公式浮点运算次数=2×参数数量×生成的token数来估计。对于GPT-4,我们假设它是一个混合专家(MoE)模型,每个专家有220B参数,每次前向传递激活2个专家。需要注意的是,GPT-4的这些数字未得到OpenAI的确认,因此也需要谨慎对待。

我们可以看到,基于扩散模型如DiT和Sora的推理算力需求要大得多:DiT-XL(6.75亿参数)的推理计算量,大约与LLama 2(700亿参数)相当。我们还可以看到,Sora的推理算力需求比GPT-4高出数个数量级。

需要注意的是,上述许多数字都是估计值,并且依赖于简化的假设。例如,它们并未考虑GPU的实际浮点运算利用率、内存容量和带宽限制以及诸如推测解码等高级技术。

如果类似Sora的模型占有重要市场份额时的推理计算量

在这一部分,我们根据Sora的计算需求,推测如果AI生成视频在流行视频平台如TikTok和YouTube上占有重要市场份额,将需要多少英伟达H100 GPU来运行类似Sora的模型。

  • 我们假设每小时每个H100生成5分钟视频(详见上文),相当于每天每个H100生成120分钟视频。

  • TikTok:每天1700万分钟视频(3400万个视频x平均30秒长度),假设AI渗透率50%。

  • YouTube:每天4300万分钟视频,假设AI渗透率15%(主要是2分钟以下的短视频)

  • AI每天总计生成视频:850万+650万=1070万分钟。

  • 为支持TikTok和YouTube的创作者社区,需要89000张英伟达H100 GPU。

由于以下因素,这一数字可能偏低:

  • 我们假设100%的浮点运算利用率,并未考虑内存和通信瓶颈。实际上50%的利用率更为现实,需要乘以2倍。

  • 需求不会均匀分布在时间上,而是具有突发性。峰值需求尤其成问题,因为需要相应更多GPU来满足所有流量。我们认为,应考虑峰值需求再增加2倍,作为所需最大GPU数量。

  • 创作者可能会生成多个候选视频,从中挑选最佳。我们保守地假设,平均每个上传视频要生成2个候选视频,再增加2倍。

  • 总计在峰值时需要大约72万台英伟达H100 GPU。

这说明了我们的观点:随着生成式AI模型变得越来越受欢迎和受到依赖,推理计算将占主导地位。对于基于扩散的模型如Sora,这种趋势会更加明显。

另外需要注意,如果扩大模型规模,推理计算需求也会大幅增加。另一方面,更优化的推理技术和整个技术栈上的其他优化措施,可能会在一定程度上抵消这种影响。

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:Plappert

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月27日
下一篇 2024年3月27日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日