Sora首批专业级视频公布，OpenAI要给好莱坞亿点点震撼

2024年3月26日 19:49 • 未来科技

奖项，这是Vimeo。平台对其顶尖短片的认可。她曾感受到自己的艺术创作受限于想象力与现实可能性之间的张力，而。对于。带来的影响同样有着深刻的体会：

“Sora。它使我能够在更少的技术束缚下，将我的想象力转化为现实。帧的视频在潜在空间中可能只需要。帧来表示。处理图像，处理视频的计算量至少增加了。大约每小时能生成。并且随着生成式。尚未发展此类技术，市场上先进的。

本文来自微信公众号：APPSO （ID：appsolution），作者：莫崇宇，题图：由Sora生成

随着生成式 AI 的浪潮汹涌而至，即使是好莱坞这个长久以来被视为电影梦工厂的圣地，也迎来了变革的十字路口。

几天前，据彭博社报道，OpenAI 计划与好莱坞达成合作，鼓励电影制作人将 Sora 整合到工作流中，以此来拓展 OpenAI 在娱乐行业的影响力。

而在今天，一群与 OpenAI 合作的艺术家们用七部超现实主义大片给好莱坞的导演们“打了个样板”，并向整个影视行业发出了一次强有力的呼吁：

是时候该正视 AI 在艺术创作中的角色了。

一、教好莱坞导演“拍”短片

shy kids ，“空中梦想家”

位于多伦多的 shy kids 是一家多媒体制作公司，他们利用 Sora 讲述了一个关于气球人的故事。

短片的三位核心成员 Walter Woodman、Sidney Leeder 和 Patrick Cederberg 表示，Sora 的到来让他们能够将那些难以实现的故事变为现实。

视频来自 @dotey（已翻译），下同

导演 Walter 对 Sora 在创作过程中的表现给予了高度评价，“Sora 在创造看似真实的作品方面表现得非常出色，但更兴奋的是，它能够带来超越现实的创意。这不仅仅是技术上的突破，更是抽象表现主义进入一个全新阶段的标志。”

对整个行业来说，“来自世界各地、内心充满着想要迸发的故事的人们，终于有了一个机会，向世界展示他们心中的宇宙。”

Paul Trillo，导演

Paul Trillo 是一位跨领域的艺术家、作家及导演，他的作品获得《滚石》和《纽约客》等权威媒体的高度评价。

Paul 荣获 19 次 Vimeo Staff Picks 奖项，这是Vimeo 平台对其顶尖短片的认可。

“与 Sora 合作，我首次感受到了作为电影制作人的绝对自由，”他表示。“不再受时间、财力或他人意见的束缚，我可以更加大胆且充满激情地探索和实验。”

Sora 的力量在于，当我们不再复制旧有的东西，而是创造出全新的、以往我们无法想象的可能时，它能展现出惊人的能力。

Nik Kleverov，创意总监 / Native Foreign

坐落于洛杉矶的加州，Native Foreign 是一家获得艾美奖提名的创意机构，以精湛的品牌叙事、动效与标题设计，以及生成式 AI 的工作流程方面的专长而闻名。

作为联合创始人的 Nik Kleverov 正在利用 Sora“将概念视觉化，并为品牌伙伴的创意快速打磨迭代”，在他看来，预算将不再限制创意的叙事。

Nik 还分享了他的制作体验：“我是那种习惯于动态思维的创意工作者，因此当我在 Sora 中工作时，感觉就像能够将任何想法变为现实。”

August Kamp，艺术家/音乐家

August Kamp 是一位多才多艺的艺术家，身兼音乐家、研究者、创意倡导者和跨学科艺术家多重身份。

对于 August 而言，Sora 的出现标志着一个历史性的突破。她曾感受到自己的艺术创作受限于想象力与现实可能性之间的张力，而 Sora 为她提供了一个全新的解决路径。

能够如此直接地打造和精炼电影级视觉效果，为我开辟了前所未有的艺术创作道路……

我真的非常期待，随着这些工具的未来发展，我们还能接触到哪些新的故事讲述形式。

Josephine Miller，创意总监

Josephine Miller 是伦敦 Oraar Studio 的联合创始人及创意总监，她领导的工作室擅长 3D 视觉、增强现实和数字时尚的设计。

Josephine 对于 Sora 带来的影响同样有着深刻的体会：

“Sora 为我开启了一个全新的领域，让那些我多年梦想中的构思成为可能，这些构思以往因为技术壁垒而难以实现……

这种快速将想法以高品质概念化的能力，不仅对我的创意过程构成了挑战，也促进了我的故事讲述技巧的成长。它使我能够在更少的技术束缚下，将我的想象力转化为现实。”

Don Allen Stevenson III，数字增强现实/混合现实艺术家

Don Allen III 是一位在梦工厂动画开始其职业生涯的多领域创作者，演说家和顾问，一直专注于探索混合现实、虚拟现实和人工智能的应用，不断推动创意和技术的界限。

我一直有个念头，创造一些我脑海中觉得有趣的增强现实异种生物。

有了 Sora，我现在能更简便地对这些构思进行初步实现，再进一步完善出 3D 角色，将它们置入增强现实环境中。

Don 特别强调了 Sora 的特别之处：“它打破了传统的物理定律和思维框架的束缚。”

他认为使用 Sora 可以使得他能够从技术的限制中解放出来，转而专注于无拘无束的创造性思考。“开启了即刻呈现想象和快速打造原型的新世界。”

同时，Don 也提到：“这让我能更有效地分配我的时间和精力，在正确的方向上深入挖掘，进一步增强我创作的角色想要传达的情感深度。”

Alex Reben，雕塑家/艺术家，OpenAI 的驻地艺术家

Alexander Reben 这十年来致力于创作探讨 AI 中人性幽默与荒谬的艺术作品。

他通过手工将 AI 生成的图像转换成三维模型，并将这些模型具象化于现实世界中，创造出一系列引人深思的雕塑作品。

亚历克斯分享了他对 Sora 的看法：“我开始将 Sora 作为开发三维雕塑的新起点。我深入研究了摄影测量学及其在雕塑创作中的应用潜力，这一探索过程让我感到无比兴奋。

特别是，将视频转换成三维模型的可能性，让我意识到我们有能力将 AI 系统的应用推向一个全新的维度。”

二、Hollywood？Sorawood！

一周前，Factorial Funds 发布了一篇深入分析的文章，对 Sora 的运行成本进行了详细估算。

尽管有关 Sora 技术的详细信息虽然有限，但 Factorial Funds 研究人员认为可以将 Sora 看作是 DiT（Diffusion Transformers）在视频生成方面的扩展，并在推算过程中参考了 DiT 论文的数据。

DiT-XL 模型有 675M 参数，使用了大约 1021 FLOPS 的总计算量，相当于大约 0.4 个英伟达 H100 运行一个月。

假设视频以 24fps 编码，1 分钟的视频包含 1440 帧。考虑到 Sora 的空间和时间压缩的技术特性，如果按 DiT 论文的 8 倍压缩率，原本 1440 帧的视频在潜在空间中可能只需要 180 帧来表示。因此，相较于 DiT 处理图像，处理视频的计算量至少增加了 180 倍。

由于估计 Sora 的模型参数数量可能远超 675M，所以假设该模型为 20B 参数的模型，这意味着相比于 DiT，Sora 的计算需求增加了 30 倍。此外，Sora 训练的数据集比 DiT 也要大，这进一步增加了计算需求，乘数在 4 到 10 倍之间。

综合考量上述各项因素之后，研究人员估算出 Sora 训练一个月所需的计算资源大约在 4211-10528 块 H100 之间。

训练计算是一次性的大量计算，而推理计算虽然较小，但随着模型的广泛应用，会被频繁调用。

平衡点是指花费在推理上的计算量超过训练所需计算量的时刻。基于 DiT 到 Sora 的推算，Sora 每生成一段视频的计算成本约为 708×10^15 FLOPS，相当于每块 H100 GPU 大约每小时能生成 5 分钟视频。

在生成 1530 万到 3810 万分钟视频后，推理计算将超过训练计算。考虑到 YouTube 每天上传的视频量约为 4300 万分钟，这个平衡点在实际应用中很快就会达到。

不过，需要说明的是，上述许多数字都是估计值，并且依赖于简化的假设，并不一定为准确的数据。例如，它们没有考虑 GPU 的实际 FLOPS 利用率、内存容量和内存带宽的限制以及推测解码等先进技术。

研究人员估算了使用 Sora 生成覆盖一些主流视频平台内容所需 H100 GPU 的数量。由上文推算可知，每块 H100 每小时能制作 5 分钟的视频，也就意味着每块 H100 每天能制作大约 120 分钟的视频。

TikTok 每天总视频数大约为 3.4 亿，平均时长约为 30 秒，那 TiKtok 每天大约产生约 1.7 亿分钟的视频，同理，YouTube 每天产生的视频总时长约为 4.3 亿分钟。

假设 AI 参与视频生成的比例为 15%（大部分视频时长低于 2 分钟），那么 AI 每天产生的视频时长：8500 万 + 6500 万 = 1.07 亿分钟。

也就是说，仅仅为了支持 Tiktok 和 YouTube 上的创作者社区，所需英伟达 H100 GPU 的总量约为 89000 块。

然而上述的推算还算偏保守，因为还需要考虑其他因素：

首先，在实际情况中，GPU 的计算能力可能会受到内存限制和通信瓶颈的影响，导致实际可用的计算能力低于理论最大值。因此，认为 50% 的利用率更为现实，这意味着为了达到相同的计算效果，所需的 GPU 数量需要增加一倍。

其次，视频制作的需求在一天中不是均匀分布的，而是集中在某些高峰时段。在这些高峰时段，由于需求激增，需要更多的 GPU 来处理这些额外的计算任务，这可能导致所需的 GPU 数量再次翻倍。

在制作视频时，创作者通常会制作多个候选版本，然后从中选择最佳的一个上传。研究人员估计，平均每上传一个视频，会制作两个候选视频。这意味着实际的视频制作过程需要的计算资源是单个视频的三倍，因此所需的 GPU 数量也还需要增加一倍。

综合考虑这些因素，研究人员得出了一个保守的估计，即在高峰时段，大约需要 72 万块 H100 GPU 来满足实际需求。

附上原文链接：https://www.factorialfunds.com/blog/under-the-hood-how-openai-s-sora-model-works

作为对比，Meta CEO 扎克伯格曾宣布为了推进 AGI，将豪砸上百亿美元购买 35 万个有价无市的 H100 GPU，而这一数字还只是覆盖 Tiktok 和 YouTube 所需计算资源的一半。

不久前，好莱坞知名制片人兼导演泰勒·派瑞在接触 Sora 没几天后，突然宣布搁置筹备了长达四年的 8 亿美元制片厂扩建计划，成了 Sora 诞生的首个受害者。

由于 Sora 和我看到的东西，所有这一切都被无限期搁置。

这一表态在影视行业引起了不少的恐慌，如今看来，倘若上文推算的数据属实，那么 Sora 要想短时间抢走影视工作者的饭碗，似乎还有一段长路要走。

此外，美国《纽约客》杂志的一篇报道指出，ChatGPT 每天用电量是美国家庭平均用电量的 1.7 万多倍。并且随着生成式 AI 的进一步普及，耗电量还会持续攀升。

马斯克也曾发出警告，未来两年内，行业的主要障碍将由“缺硅”转为“缺电”，并或将成为 AI 发展的新瓶颈。

但这些只不过是技术发展道路上的短暂性难题，随着时间的推移，算力的限制和资源等外在因素的桎梏也是最容易被攻克的一环。

就 Sora 目前展现出的技术成果来看，生成画面的震撼足以掩盖音效上的瑕疵，而且我们至今仍未窥见 OpenAI 的弹药库里是否还藏着音效界的 ChatGPT。

即使 OpenAI 尚未发展此类技术，市场上先进的 ElevenLabs、以及近日爆火的 Suno 等音效工具也完全有能力填补 Sora 在工作流中的最后一块空白。

因此，可预见的是，在不远的将来，影视制作将变得前所未有的简单——仅需一部剧本，就能一键生成一部完整的电影作品。

而剧本创作的门槛，早在 ChatGPT 问世之后，就已经成了生成式 AI 最先颠覆的领域。

本文来自微信公众号：APPSO （ID：appsolution），作者：莫崇宇

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

GPT Store要凉了？

Previous 2024年3月26日

苹果搭载大模型的Siri，可能和你想的不太一样

Next 2024年3月26日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

Sora首批专业级视频公布，OpenAI要给好莱坞亿点点震撼

相关推荐