a16z干货：Sora统治之下，AI生成视频还有哪些机会？

2024年2月20日 09:22 • 未来科技

一、用好巨头“歼灭战”窗口期

OpenAI推出Sora不让人意外，让人意外的是Sora之强大难以想象。

通过预先训练好的转换器（Transformer），Sora能够识别每块“小拼图”的内容，并根据文本提示快速找到自己学习过的“小拼图”，把它们拼在一起，生成与文本匹配的视频内容。

而此前的AI视频模型大多是通过循环网络、生成对抗网络、自回归Transformer和扩散模型等技术对视频数据建模。

2024年的开年震撼同样来自OpenAI。节后还没开工，Altman就带着继ChatGPT的第二个杀手级应用Sora大杀四方。我们看完那条长达60s的演示视频后，脑中只有一句话：大家谁都别想玩了。

快速回归理智，Sora统治之下，是否还有其他机会？我们从a16z发布的展望——“Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024”入手，盘一盘这条赛道留给其他玩家哪些空间。

一、用好巨头“歼灭战”窗口期

OpenAI推出Sora不让人意外，让人意外的是Sora之强大难以想象。

细数2023年AI视频赛道，有两条非常清晰的逻辑。

一是AI生成视频发展之迅猛。2023年初还出现公开的文生视频模型。仅仅12个月后，就有Runway、Pika、Genmo和Stable Video Diffusion等数十种视频生成产品投入使用。

a16z认为，如此巨大的进展说明我们正处于大规模变革的起步阶段——这与图像生成技术的发展存在相似之处。文本—视频模型正在不断演化进步，而图像—视频和视频—视频等分支也在蓬勃发展。

二是巨头入场只是时间问题。2024年注定是多模态AI爆发之年。然而，细数2023年21个公开AI视频模型，大多数来自初创公司。

表面上，Google、Meta等科技巨头如湖水般平静，但水面之下暗流涌动。巨头们没有停止发表视频生成的相关论文；同时，他们还在不声明模型发布时间的前提下对外发布演示版本的视频，比如OpenAI发布Sora。

明明演示作品已经成熟，为何巨头们不着急发布呢？a16z认为，出于法律、安全以及版权等方面的考虑，巨头很难将科研成果转化成产品，因此需要推迟产品发布，这就让新玩家获得了先发优势。

我们认为，最关键因素是“网络效应”并不重要——首发玩家不是赢家，技术领先才是赢家。有了能生成60s视频的Sora，你还会执着于生成4s视频的Pika吗？

但这不代表初创公司彻底没戏。因为在该规律下，巨头们的动作不会太快，初创公司需要抓住“窗口期”，尽量快速发布产品，圈一波新用户，赚一波快钱，尤其是在国内市场。

补充前阿里技术副总裁、目前正在从事AI架构创业的贾扬清的观点：1. 对标OpenAI的公司有一波被其他大厂fomo收购的机会。2. 从算法小厂的角度，要不就算法上媲美OpenAI，要不就垂直领域深耕应用，要不就选择开源。（创业邦）

二、“学霸”Sora强在哪里？

目前，绝大部分AI视频产品还未解决核心难题：可控性、时间连贯性、时长。

可控性：用文本“描述”控制画面中人物的运动轨迹。

当然，一些公司可以为用户提供视频生成前的可控性。例如，Runway的Motion Brush让用户高亮图像的特定区域，并决定它们的动作。

时间连贯性：人物、物体、背景在不同帧之间保持一致，不发生扭曲。

时长：能够制作超过几秒的视频？

视频的时长和时间连贯性息息相关。许多产品都限制视频时长，因为在时长超过几秒后就无法保证任何形式的一致性。如果你看到一个较长的视频，很可能是由很多简短片段构成，而且往往需要输入几十甚至上百条指令。

而Sora的强大在于突破了以上难题。

1. 时间连贯性——前景人来人往，但主体始终保持一致。

2. 时长——轻轻松松生成60s。

3. 可控性——画家的手部动作非常逼真。

不仅如此，Sora还能更好地理解物理世界。养猫的人应该明白这个视频的含金量，居然可以模拟出猫咪“踩奶”！

Sora能够实现如此突破，在于OpenAI走上了一条与众不同的道路。

假设Sora是一个足不出户的小朋友，他理解外部世界的方式是观看五花八门的视频和图片。

但Sora小朋友只能看懂简单的信息，OpenAI就为其量身打造了一套启蒙学习课程——通过“视频压缩网络”技术，将所有“复杂”的视频和图片压缩成一个更低维度的表示形式，转换成Sora更容易理解的“儿童”格式。

举个不那么恰当的例子。“视频压缩网络”技术就是将一部成人能看懂的电影内核转换为一集Sora更容易理解的“小猪佩奇”。

在理解“学习信息”阶段，Sora进一步将压缩后的信息数据分解为一块块“小拼图”——“时空补丁”（Spacetime Patches）。

一方面，这些“小拼图”是视觉内容的基本构建块，无论原始视频风格如何，Sora都可以将它们处理成一致的格式，就像每一张照片都能分解为包含独特景观、颜色和纹理的“小拼图”；另一方面，因为这些“拼图”足够小，且包含时空信息，Sora能够更细致地处理视频的每一个小片段，并考虑和预测时空变化。

在生成“学习成果”阶段，Sora要根据文本提示生成视频内容。这个过程依赖于Sora的大脑——扩散变换器模型（Diffusion Transformer Model）。

通过扩散模型（Diffusion Models），Sora可以消除不必要的“噪音”，将混乱的视频信息变得逐步清晰。例如，涂鸦本上有很多无意义的线条，Sora通过文本指令，将这些无意义的线条优化为一幅带有明确主题的图画。

而此前的AI视频模型大多是通过循环网络、生成对抗网络、自回归Transformer和扩散模型等技术对视频数据建模。

结果就是“学霸”Sora明白了物理世界动态变化的原理，实现一通百通。而其他选手在学习每一道题解法后，只会照葫芦画瓢，被“吊打”也是在情理之中。

三、未来AI视频产品如何发展？

根据a16z的展望，AI视频产品还存在一些待解决空间。

首先，高质量训练数据从何而来？

和其他内容模态相比，视频模型的训练难度更大，主要是没有那么多高质量、标签化的训练数据。语言模型通常在公共数据集（如Common Crawl）上进行训练，而图像模型则在标签化数据集（文本-图像对，如LAION和ImageNet）上进行训练。

视频数据则较难获得。虽然YouTube和TikTok等平台不乏可公开观看的视频，但这些视频都没有标签，而且可能不够多样化（例如猫咪视频和网红道歉等内容在数据集中比例可能过高）。

基于此，a16z认为视频数据的“圣杯”可能来自工作室或制作公司，它们拥有从多个角度拍摄的长视频，并附有脚本和说明。不过，他们是否愿意将这些数据授权用于训练，目前还不得而知。

我们认为，除了科技巨头，长期来看，以国外Netflix、Disney；国内“爱优腾”为代表的行业大佬也不容忽视。这些公司积攒了数十亿条会员评价，熟知观众的习惯和需求，拥有数据壁垒和应用场景。去年1月，Netflix就发布了一支AI动画短片《犬与少年（Dog and Boy）》。其中动画场景的绘制工作由AI完成。对标到国内，AI视频赛道大概率依然是互联网大厂的天下。

其次，用例如何在平台/模型间细分？

a16z认为，一种模型不能“胜任”所有用例。例如，Midjourney、Ideogram和DALL-E都具有独特的风格，擅长生成不同类型的图像。预计视频模型也会有类似的动态变化。围绕这些模式开发的产品可能会在工作流程方面进一步分化，并服务于不同的终端市场。例如，动画人物头像（HeyGen）、视觉特效（Wonder Dynamics）和视频到视频（DomoAI）。

我们认为，这些问题最终都会被Sora一举解决。但对于国内玩家而言，或许也是一个“中间商赚差价”的机会。

第三，谁将支配工作流程？

目前大多数产品只专注于一种类型的内容，且功能有限。我们经常可以看到这样的视频：先由Midjourney做图，再放进Pika制作动画，接着在Topaz上放大。然后，创作者将视频导入Capcut或Kapwing等编辑平台，并添加配乐和画外音（由Suno和ElevenLabs或其他产品生成）。

这个过程显然不够“智能”，用户会非常希望可以出现“一键生成”式平台。

据a16z展望，一些新兴的生成产品将增加更多的工作流程功能，并扩展到其他类型的内容生成——可以通过训练自己的模型、利用开源模型或与其他厂商合作来实现。

其一，视频生成平台会开始添加一些功能。例如，Pika允许用户在其网站上对视频进行放大处理。此外，目前Sora也可以创建完美循环视频、动画静态图像、向前或向后扩展视频等等，具备了视频编辑的能力。但编辑效果具体如何，我们还要等开放后的测试。

其二，AI原生编辑平台已经出现，能够让用户 “插入”不同模型，并将这些内容拼凑在一起。

可以预见的是，未来大批内容制作者将同时采用AI和人工生成内容。因此，能够“丝滑”编辑这两类内容的产品将大受欢迎。这或许是玩家们的最新机会。

本文来自微信公众号：适道（ID：survivalbiz），作者：适道AI组，编辑：狮刀

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

Sora尚未公测，但已经有人用它来“捞金”了

Previous 2024年2月20日

百人谈 | 当一家国际教育机构，决定 all in AI

Next 2024年2月20日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

a16z干货：Sora统治之下，AI生成视频还有哪些机会？

相关推荐