AI视频生成现状全盘点:谁是真正的爆款?

一、AI视频生成大爆发

2023年是AI视频取得突破的一年。

我们看到,文本到视频的模型在不断改进,图像到视频,以及视频到视频等分支也在蓬勃发展。

今天,你可以在哪里生成AI视频。

这些产品大多来自初创公司,其中许多都是从Discord。

比如,谷歌文本生成视频的模型Lumiere:

这些公司有着巨大的分销优势,其产品拥有数十亿用户。

a.。

过去一年,AI视频领域我们见证了,Gen-2、Pika等爆款产品的诞生。

来自a16z的Justine Moore,详细盘点了人工智能视频生成领域的现状、不同模型比较,以及还未解决的技术挑战。

接下来,一起看看这篇文章都讲了什么?

一、AI视频生成大爆发

2023年是AI视频取得突破的一年。不过,今年过去了一个月,暂未有公开的文本到视频的模型。

短短12个月,数十种视频生成产品受到了全球数以万计的用户的青睐。

不过,这些AI视频生成工具仍相对有限,多数只能生成3秒~4秒的视频,同时质量往往参差不齐,角色一致性等问题尚未解决。

也就是说,我们还远不能制作出一个只有文字提示,甚至多个提示的皮克斯级别的短片。

然而,我们在过去一年中在视频生成方面取得的进步表明,世界正处于一场大规模变革的早期阶段——与我们在图像生成方面看到的情况类似。

我们看到,文本到视频的模型在不断改进,图像到视频,以及视频到视频等分支也在蓬勃发展。

为了帮助了解这一创新的爆炸式增长,a16z追踪了到目前为止最需要关注的公司,以及该领域仍然存在的潜在问题。

今天,你可以在哪里生成AI视频?

1. 21个视频生成产品

今年到目前为止,a16z已经跟踪了21种公开产品。

虽然你可能听说过Runway、Pika、Genmo和Stable Video Diffusion,但还有许多其他的东西需要探索。

这些产品大多来自初创公司,其中许多都是从Discord bots,有以下几个优势:

a. 不需要构建自己面向消费者的界面,只需专注于模型质量;

b. 可以利用Discord每月1.5亿活跃用户的基础进行分发;

c. 公共渠道为新用户提供了一种简便的方式,让他们获得创作灵感(通过查看他人的创作)

然而,随着技术成熟,我们开始看到越来越多的AI视频产品建立自己的网站,甚至是App。

随着Discord提供了一个很好的平台,但在纯生成之上添加的工作流而言,却是有限的,并且团队对消费者体验的控制很少。

值得注意的是,还有很大一部分人不使用Discord,因其觉得界面混乱让人困惑。

2. 研究和技术

谷歌、Meta和其他公司在哪里?

在公开的产品列表中,他们显然没有出现–尽管你可能已经看到了他们发布的关于Emu Video、VideoPoet 和 Lumiere等模型的帖子。

到目前为止,大型科技公司基本上都不选择公开自家的AI视频产品。

取而代之的是,他们发表了各种相关的视频生成的论文,而没有选择视频演示。

比如,谷歌文本生成视频的模型Lumiere:

这些公司有着巨大的分销优势,其产品拥有数十亿用户。

那么,他们为什么不放弃发布视频模型,而在这一新兴类别市场中夺取巨大份额。

最主要的原因还是,法律、安全和版权方面的担忧,往往使这些大公司很难将研究转化为产品,并推迟推出。如此一来,让新来者有机会获得先发优势。

二、AI视频的下一步是什么?

如果你曾使用过这些产品,便知道在AI视频进入主流产品之前,仍然有很大的改进空间。

有时会发现,AI视频工具可以将提示内容生成视频的“神奇时刻”,但这种情况相对较少见。更常见的情况是,你需要点击几次重新生成,然后裁剪或编辑输出,才能获得专业级别的片段。

这一领域的大多数公司都专注于解决一些核心的问题:

a. 控制性:你能否同时控制场景中发生的事情,(比如,提示“有人向前走”,动作是否如描述的那样?)关于后一点,许多产品都增加了一些功能,允许你对镜头zoom或pan,甚至添加特效。

b. “动作是否如描述的那样”一直较难解决:这涉及到底层模型的质量问题(模型是否理解提示的含义并能按要求生成),尽管一些公司正在努力在生成前提供更多的用户控制。

比如,Runway的motion brush就是一个很好的例子,它允许用户高粱图像的特定区域并确定其运动方式。

时间一致性:如何让角色、对象和背景在帧之间保持一致,而不会变形为其他东西或扭曲?

在所有公开提供的模型中,这是一个非常常见的问题。

如果你今天看到一段时间连贯的视频,时长超过几秒,很可能是视频到视频,通过拍摄一段视频,然后用AnimateDiff prompt travel之类的工具来改变风格。

a. 长度——制作长时间的短片与时间连贯性高度相关。

许多公司会限制生成视频的长度,因为他们不能确保几分钟后依然视频保持一致性。

如果当你看到一个超长的AI视频,要知道它们是由一堆短片段组成的。

三、尚未解决的问题

视频的ChatGPT时刻什么时候到来?

其实我们还有很长的路要走,需要回答以下几个问题:

1. 当前的扩散架构是否适用于视频?

今天的视频模型是基于扩散模型搭建的:它们基本原理是生成帧,并试图在它们之间创建时间一致的动画(有多种策略可以做到这一点)

他们对3D空间和对象应该如何交互没有内在的理解,这解释了warping / morphing。

2. 优质训练数据从何而来?

与其他模态模型相比,训练视频模型更难,这主要是因为视频模型没有那么多高质量的训练数据可供学习。语言模型通常在公共数据集(如Common Crawl)上进行训练,而图像模型则在LAION和ImageNet等标记数据集(文本-图像对)上进行训练。

视频数据更难获得。虽然在YouTube和TikTok等平台上不乏公开可访问的视频,但这些视频没有标签,也不够多样化。

3. 这些用例将如何在平台/模型之间进行细分?

我们在几乎每一种内容模态中看到的是,一种模型并不是对所有用例都“取胜”的。例如,MidTrik、Idegraph和Dall-E都有不同的风格,并擅长生成不同类型的图像。

如果你测试一下今天的文本到视频和图像到视频模式,就会发现它们擅长不同的风格、运动类型和场景构成。

提示词:Snow falling on a city street, photorealistic

Genmo

Runway

Stable Video Diffusion

Pika Labs

谁将主导视频制作的工作流程?

除了纯粹的视频生成,制作好的剪辑或电影通常需要编辑,特别是在当前的范例中,许多创作者正在使用视频模型来制作在另一个平台上创建的照片的动画。

从Midjourney的图像开始,在Runway或Pika上制作动画,然后在Topz上进行升级的视频并不少见。

然后,创作者将视频带到CapCut或Kapwing等编辑平台,并添加配乐和画外音,通常是在Suno和ElevenLabs等其他产品上生成的。

参考资料:

https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/

本文来自微信公众号:新智元 (ID:AI_era),作者:新智元,编辑:桃子

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月13日
下一篇 2024年2月14日

相关推荐

  • 狂砸670亿美元,日本要重振芯片产业

    为了夺回昔日半导体50.3%市占率的领先地位,且不被海外竞争者“卡脖子”,日本“痛下决心”狂砸670亿美元吸引全球先进半导体公司来日本建厂,并试图量产2纳米高端芯片,以重新领跑全球。

    日本在自20世纪80年代以来在全球半导体领域的领先地位被超越后“痛定思痛”,决定将截至2030年的半导体产业的复兴分为三个阶段:(1)加快半导体生产的基础设施建设。

    未来科技 1小时前
  • 每秒500token的AI芯片让人惊叹,但它真的靠谱吗?

    根据Groq此前发布的论文,它的核心技术其实是一个名叫TSP的微架构设计,全称叫做张量流处理器,Tensor。

    对比可以看到,Groq的回答比较简单,无法挖掘书中所代表的更深的复杂的意味。

    快速来自上面提到的TSP的优化,除此之外,Groq上面的模型也是他们自己微调过的,它并没有公开微调过程,所以对于模型本身的看法来源于我的推测:它上面可以选用的所有的模型后面都有“小尾巴”,比如Llama。

    未来科技 1小时前
  • 聊一聊我眼里的科技颠覆感

    如果说从电脑到互联网到智能手机,一直是在这个世界提升粘度频次的话,ChatGPT则是创造另外一个世界的重要支柱,且没有之一。

    就当下这个时间点而言,我依然像90年代末看到互联网一样,隐隐觉得这可能是一个很剧烈的变革,但还是有些懵懵懂懂模模糊糊。

    这个例子的意思就是,人类并没有掌握所有的规律,人工智能作为我们的创造物,通过机器学习大量的也是我们的创造物,能发现新的规律以至于可以重现虚拟的真实世界。

    未来科技 1小时前
  • “已经有三个人跟我说要做中国版Sora”

    而针对OpenAI宣称sora是“世界模拟器”,图灵奖得主、Meta首席AI科学家杨立昆(YannLeCun)认为,根据提示词生成的大部分逼真视频,离“AI理解物理世界”还差得远,刷屏的视频仍有很多bug,生成视频的过程与基于世界模型的因果预测完全不同。

    去年此时,很多人问,为什么中国没有产生ChatGPT,到了今年问题又变成了,为什么中国没有产生sora,在天才科学家史蒂芬·沃尔弗拉姆那本《这就是ChatGPT》的导读序中,作者建议我们把问题换成,“为什么全世界只有OpenAI能做出ChatGPT”。

    未来科技 2小时前
  • 一年一万篇论文撤稿,期刊编辑守不住学术大门了?

    2023年最大比例的撤稿来自于出版商Wiley旗下的Hindawi系列期刊,在一年内撤稿超过了8000篇,该公司在声明中表示如此规模的撤稿是出于对“同行评审过程被系统性操纵的担忧”,尤其是大量负责特刊的客座编辑出现了不可控的风险,最终Wiley表示将彻底放弃Hindawi品牌。

    图源:Nature

    很多长期关注学术不端的专家对撤稿论文超过1万成为大新闻表示乐见其成,因为根据他们的观察,在全世界论文工厂的生意非常火爆,这1万篇仅仅是其中运气不太好的那一小部分。

    未来科技 2小时前
  • 存储,战火重燃

    一、冯·诺依曼的“陷阱”

    韩国人之所以能等来又一次机会,很大程度上得感谢“计算机之父”冯·诺依曼。

    1945年,全球第一台计算机ENIAC问世在即,冯·诺依曼联合同事发表论文,阐述了一种全新的计算机体系架构。其中最大的突破在于“存算分离”——这是逻辑运算单元第一次从存储单元中被剥离出来。

    如果把计算机内部想象成后厨,那么存储器就是仓库管理员,而逻辑芯片就是主厨。

    未来科技 3小时前
  • GPT-4劲敌,谷歌进入高能+高产模式

     

    图源:Gemini 1.5 Pro官方测试数据

    Gemini 1.5 Pro大大超过Gemini 1.0 Pro,在27项基准(共31项)上表现更好,特别是在数学、科学和推理(+28.9%),多语言(+22.3%),视频理解(+11.2%)和代码(+8.9%)等领域。
     

    图源:Gemini 1.5 Pro官方演示样本

     
    Gemini 1.5 Pro在处理长达超过100,000行的代码时,还具备极强的问题解决能力。

    未来科技 3小时前
  • Vision Pro的两个难题

    如果没有新的硬件变革,应该也没有什么纯内容服务平台的大机会了吧

    我的回复是这样的:

    这么多年的内容生态,内容本身变化很小的,基本还是图文音视频,这都是前互联网时代的东西。

    IMAX其实是一项1967年就问世的技术,但相当长一段时间里,也一直困在恶性循环中:院线不愿意花钱做IMAX影院,电影生产商因为IMAX影院少而不愿意费力气拍IMAX片子。

    由此我们可以看到,一个具有引爆点力量的内容非常重要,它能彰显出巨大的财富预期,以推动产业走出那个恶性循环。

    未来科技 4小时前
  • 299卖Sora内测账号?互联网的创造力全拿来骗钱了

    总而言之,虽然 Sora 的官方应用啥时候公测还没个准信儿,但这帮卖课、搞诈骗的,显然已经“遥遥领先”了。

    也难怪,最后整得。

    卖 GPT 课的时候,卖课哥还能给自己辩驳两下子,说这是知识付费,愿者买单。

    但 Sora 现在连产品都还不知道在哪儿,国内几乎也没有谁真正上手试用过,有些人还敢漫天要价,就真的是黑心的萝卜,坏透了。

    说实在的,这两年生成式。

    未来科技 5小时前
  • 赶超英伟达?都2024年了,居然还炒作SRAM

    SRAM的优点很明显,快,非常快,不仅远远超过NAND,更是超过DRAM的速度,所以SRAM的特点就是快。

    在PC,HPC上的CPU里面,SRAM面积还不小哦,普遍占到一半,但是在手机这种对功耗要求比较高的CPU里,SRAM就比较小了。

    实际情况就是大容量的SRAM要上,毕竟这个直接提升性能比较明显,但是HBM也绝对不是它的对立面啊。

    未来科技 7小时前