AI 视频生成有多卷?
当前的 AI 赛道,AI 生文、生图应用层出不穷,而AI生成视频领域仍处于相对早期发展阶段,尽管有一些初步尝试和突破,但难以与其他AI生成内容相媲美,它们仍然存在许多问题,抖动、闪现,以及频繁出现的画面跳变,这种“鬼畜”现象很难保证稳定的生成效果。
然而最近 Pika 的火热,重新带动了人们对 AI 视频生成的关注,甚至带动创始人父亲的上市公司接连涨停。
科技媒体们争相报道,都把 Pika 视作“AI 视频鼻祖”Runway 强有力的竞争者。Runway 是市场公认更为成熟的 AI 视频生成工具,去年热门影片《瞬息全宇宙》在制作中就用到了后者的技术。
一众看好伴随而来的是炒作质疑,有人担心 Pika 1.0 存在过度宣传或夸大技术能力,导致公众对 AI 视频产生不切实际的期望。显然,Pika 官方注意到了这些不同的声音,在上周紧急放出一波用户的内测视频,效果跟宣发同样惊艳,击碎外界的指责,口碑瞬间反转。
事实上,AI 文生视频领域的竞争最近正变得日益活跃,背后参与者不仅包括高校和科研团队,还涵盖了多家科技巨头和风头正劲的AI初创公司。
在海外,Runway、Pika Labs、Meta(Emu Video)、李飞飞团队的 AI 文生视频战争正打得火热,比拼谁生成的效果更稳定、更惊艳;在国内,字节、美图秀秀等互联网企业也在暗暗较劲,纷纷布局 AI 文生视频工具成果。
那么,Pika 的发布,是否意味着最强 AI 文生视频工具即将易主?AI 视频为何突然爆发,竞争力在哪里,给圈内带来哪些启发?之前被制约发展的关键因素有哪些,又是如何破局的?是否标志着这一领域的杀手级应用已经诞生,“GPT 时刻”已经到来?未来又会朝着什么方向演进?
干掉 Runway?
为何成立刚过半年的 Pika,突然这么被追捧?
短短 7 个月,Pika 已累计完成 3 轮、成功拿到 5500 万美元的融资,估值已超 2.5 亿美元。投资人中不乏 OpenAI 科学家、“政变”之后仅存的董事会成员,难道其真的掌握了“科技与狠活”?
今年 4 月份,创始人郭文景才和同学从斯坦福博士辍学创办 Pika,他们希望打造更容易使用的 AI 视频生成器,让每个人都能成为自己故事的导演。
此前产品的效果跟 Runway 比不了,只是在搞视频的圈子里小有名气。要不是凭借免费模式圈了一波忠诚用户,不会有这么多人使用它。目前社区用户达到 50 万,每周制作数百万个视频,其中 Discord 服务器人数超过 16 万。为此,Pika 已经租用了数百个量级的 GPU。
从 11 月 29 日开始,关于 Pika 的创业报道突然铺天盖地。官方宣布推出其首款视频生成产品——Pika 1.0,极大地降低了使用门槛,官方甚至宣称只需要简单地打字就可以开始使用,即“Start just by typing(只要打字就能开始)”,其对语义理解的准确度和画面的精细效果超出业界预期。
据悉 Pika 计划在明年实现商用,可以帮助用户生成可用性较高的素材和视频片段,预计视频时长将比目前长几倍,但仍然会控制在 1 分钟以内。
就在许多人猜测 Pika 获得融资后,为扩大影响力而主动对外进行宣传之际,拿到评测资格的创作者透露,Pika 1.0 支持 3 种方式生成视频:文生视频、图生视频、视频转视频,感觉完全重新做了一个模型,最擅长 2D、3D 动画。
除了视频转视频以外,文生图、文生视频、图生视频等效果都非常强。他通过文字下指令,只花了 1 分钟就生成一个完全匹配上皮克斯水平的动画,神情、稳定性爆杀市面上所有的 AI 视频。
看来,Runway 的劲敌真的来了。
然而,郭文景在福布斯专访中却表现得很谦虚,她并不打算与这个领域的强大竞争对手(比如 Adobe、Runaway)为敌。“我们跟他们不同,不是要为电影制作打造产品。”“我们试图为日常消费者做更多的事情 —— 像我和 Meng 这样的人,他们本质上是创作者但又不那么专业。”
与 Runway 同时服务 C 端消费者和企业的做法不同,Pika 希望专注于为C端普通消费者打造产品,以此做出差异化,拉开与其他竞品的距离。
目前 Runway 可免费试用、定价 12 美元/月,而 Pika 为免费产品,不过后续也会考虑订阅收费模式。
实力玩家激战正酣
随着短视频、社交媒体营销中的视频内容以及创作者经济的崛起,越来越多的新兴剪辑产品开始出现并且展现出势能。
目前,视频编辑的需求会更强于生成。像字节跳动的 CapCut (剪映)在海外市场同样受到欢迎,已突破亿级用户。
AI 在后期制作和剪辑环节中的高效率已经表现得非常显著,使得视频创作在这个环节发生了明显的变化。普通用户不需要再下载传统剪辑软件、花时间学习课程,就可以通过浏览器或移动端 App 使用轻量化 AI 剪辑功能。
从风险投资公司 a16z 此前的统计,也能得出这样的结论,即视频编辑功能在这类应用中仍占据了相当重要的地位。
a16z 统计的六个视频 AIGC 应用中,只有两个应用是专注于视频生成的,分别是 Runway 和 Kaiber。而剩下的应用则都包含了一定的视频编辑功能,这些功能包括但不限于利用现有素材进行再创作(如 D-ID 和 Fliki),以及进行视频剪辑(如 Kapwing 和 Veed)。
不过,随着拍摄成本的不断上升,使用生成的内容作为替代方案变得越来越有吸引力,也就是说视频生产环节也在发生变化。
据公众号“海外独角兽”总结,推动这一趋势的产品主要分为两类:1)HeyGen、Sythesia 等数字人产品(有固定模版,只改变局部画面);2)Runway、Pika Labs 等视频生成产品(依照文字、图片等生成全新视频)。
AI 生成视频领域在最近呈现出前所未有的活跃态势,各种模型纷纷扎堆进行更新。尤其上个月开始,AI 文生视频竞争变得非常激烈,是一个巨大飞跃。
-
10 月,初创企业 Moonvalley 由 AI 图/文生成转向 AI 视频生成,推出号称“史上最强大的视频生成 AI”,一句提示词就能生成 16:9 电影画质的高清视频。
-
11月3日,Runway宣布其AI视频生成工具Gen-2更新,分辨率提升至4K,大幅提高保真度和一致性;一周后,又紧急推出运动画笔功能,强化视频局部编辑能力。
-
11 月 16 日,Meta 宣布推出两款 AI 驱动的生成模型—— Emu Video 和 Emu Edit,其中 Emu Video 利用 Meta 之前的 Emu 模型,能够基于文本和图像输入生成视频剪辑;而 Emu Edit 则专注于图像处理,承诺在图像编辑方面提供更高的精确度。
-
11 月 22 日,AI 绘画走红的 Stability AI 发布了其最新 AI 模型 Stable Video Diffusion,能够通过现有图片生成视频,是基于之前发布的 Stable Diffusion 文本转图片模型的延伸,也是目前为止市面上少数能够生成视频的 AI 模型之一。
-
11 月 28 日,AI 视频工具 Pika 1.0 发布,具有文生视频、用文字完成视频局部编辑等功能,效果媲美 Runway 的 Gen-2。
-
12月12日,李飞飞及其学生团队与谷歌合作,推出了AI视频生成模型W.A.L.T(窗口注意力潜在Transformer ,Window Attention Latent Transformer),可以通过自然语言提示生成3秒长的每秒8帧、分辨率达512×896的逼真视频;可以让一张静图变为生动活泼的动图;还能生成3D摄像机运动的视觉效果。
可以说,AI 技术的发展和应用正在推动视频创作的各个环节发生变革,为创作者带来更多的可能性。过去,AI视频应用主要局限于企业(B端)市场和专业创作者,这在一定程度上限制了其在商业领域的广泛发展和应用。
Pika类应用的爆发,意味着传统内容创作者可以利用 AI 工具提高工作效率,同时非专业人士也有了更多的机会尝试内容创作,进一步打开C端市场,扩大了AI 视频的商业化空间。
据中信建投总结,“AI+视频”不仅是一种 AI 应用,更是 LLM 后 AI 新基建能力:1)To C,降低 UGC 门槛,有望出现“AI 时代的抖音”或视频版妙鸭产品。2)To B,在电商、教育等场景降本增效;长期在影视、游戏制作空间大。
AI 视频“GPT 时刻”仍未到来
得益于过去大模型技术的持续改进,文本生成、图像生成、语言翻译和音频生成等已经被广泛应用于多个领域,这些已经逐渐进入了成熟期。比如前段时间有几个 AI 配音的生成音频就刷爆了网络,赵本山说英文、霉霉讲中文。背后使用到的 AI 生成工具是 AI 数字人 HeyGen。
尤其在图像生成领域比 ChatGPT 等文本生成的大模型成熟期还要早,如 Midjourney、DALL·E 3 和 Stable Diffusion 等模型,它们能够根据文本描述生成高质量的图像。
相对而言,视频生成普及程度并不高。在视频生成方面,尽管有一些模型如 DALL·E 3 和 Midjourney 提供了动画制作的工具,但整体上文生视频的技术发展相比于图像生成要慢一些。
反过来看,这也意味着 AI 视频仍处于爆发前夕,充满了巨大的潜力和机会。在大模型技术的加持下,视频生成的成熟度和用户规模也开始追赶上来了。视频生成能在短时间内追上来,说明技术的门槛在降低。
要知道,成立短短半年多的 Pika 一夜爆红,已拿到 3 轮融资;而鼻祖 Runway 早在 2015 年就是一家 AI 初创公司了,其融资也才到 D 轮,估值达 15 亿美元。
那么,AI 视频的“iPhone 时刻”或者杀手级应用到来了么?
Pika 很自信,认为“GPT 时刻”很快就会到来,明年就能看到了。
“我希望明年就可以实现。给用户的感受就像 ChatGPT、Midjourney v5 那样,有一个显著提升。”Pika 创始人郭文景接受采访时表示。
实事求是地说,目前的 AI 文生视频赛道的难度仍很大,尤其难以解决画面变得稳定的抖动问题。
这跟早期的手绘动画很相似,都是先绘制很多帧静止的图像,之后将这些图像连接起来,并通过一帧帧图像的渐变,实现画面的运动。由于目前的 AI 文生视频技术,还无法准确地确定关键帧,这导致了画面抖动和不稳定的生成效果。
再加上当前人们依然会为 Adobe 等传统软件支付费用,但视频生成类的用户付费比例还很低,盈利模式的可持续性受到挑战。
显然,我们也要清楚大模型的边界在哪儿。不要高估大模型的能力,它有很多事情还做不了。当下,生成式 AI 视频工具将大批量产生短剧系列,但困于技术短板,时长、清晰度、流畅度还都很有限,对于长视频的影视剧影响还较小。
如爱奇艺创始人、CEO 龚宇最近谈及 AIGC 对内容行业的挑战:明显开始对我们这个行业产生了影响,虽然在工作流程中只参与其中一两个环节,它创意的作品套路、商业价值很低,现在的水平和我们这个产业的要求相距甚远,但是未来 3-5 年很可能发展成为主流工作方式。
因此,虽然 Pika 的出现让人们对 AI 文生视频充满了期待,但是 AI 文生视频技术距离人们期望中的理想效果,还有很长的路要走。
由此可见,眼下 AI 视频的 iPhone 时刻、GPT 时刻,或者说 All- in-one 杀手级应用尚未到来。
结语
Pika 文生视频 AI 应用的出现,给 AI 生成式视频添了一把旺火,再次燃起了人们对 AI 文生视频赛道的关注。这背后源于 GPT-4V 等多模态大模型的推出,基于扩散模型的 Dalle-3、Midjourney 和 Stable Diffusion 等技术的功能不断增强,势必对影视、娱乐和广告营销创意等行业产生了巨大的影响,甚至可以说是颠覆。
那么,这距离人们期望中的AI 视频理想效果还有多远呢?
无论是企业级还是消费级,AI 视频的前景都面临着巨大不确定性。同时还存在不少现实挑战,如版权问题、原创性保护以及如何确保 AI 生成内容的质量和合规性等。尤其是投资者更关心 AI 能否带来实际的经济效益,运行高级 AI 模型的 AI 算力成本可能是一个障碍,这些模型需要大量的计算资源,用户量不断增长,算力成本也会相应地增加。
总之,视频 AI 的崛起确实标志着人工智能竞争进入了下一阶段。在这个阶段,各大公司和研究机构都在积极布局视频 AI,以争夺在这一领域的竞争优势。随着技术的不断发展,我们可以期待在未来看到更多创新性的产品和应用。
我们期望那一天的到来,即未来Transformer或其他某种算法能够精准地预测下一帧内容,那么我们将迎来全新的视频模型,这样的技术突破有可能催生出下一个炙手可热的内容平台。
本文来自微信公众号:飞哥说AI(ID:FeigeandAI),作者:元帅,编辑:高佳