去年生成式AI大语言模型引发了一波前所未有的科技狂潮,无论是科技巨头还是新兴独角兽都在争前恐后研发规模更大、性能更强的模型,言必称“GPT4”对标程度超越曾经的苹果。
不过国内大模型这么多哪家是第一,各种榜单给了我们不同的答案,或许“文无第一”吧。但在生成式视频领域,快手的可灵模型可以说是暂时领先没有对手。
01、国内视频大模型可灵暂时领先
就在六月初,猎豹移动董事长傅盛在体验过后甚至表示,“甚至我觉得也吊打了Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的。”而他口中,能吊打国内外各个文生视频模型的产品,就是快手可灵视频生成大模型。
有业内人士指出,Sora是今年2月公布的,其训练有可能在去年年底就完成了,可灵多出几个月的训练时间。更进一步来说,能调用更多的训练算力,是可灵的优势。但论算力的话,快手只能算国内第二梯队,只有大约数千张大卡,根据多方信源估计,文生视频大模型生成一分钟1080P视频至少要消耗100万Token,推理算力需求远大于文生文。所以这并非大力出奇迹的故事,那么快手是如何做到的呢?
在架构选择上,快手大模型团队采用的方案,是类似Sora模型的DiT结构,使用Transformer替代了传统的卷积U-Net。这一转变增强了处理和生成能力,解决了U-Net在处理复杂任务时冗余、感受野和定位精度的问题。
三个问题的优化,使得模型效率和性能提高、能够捕捉到更宽广的特征范围,模型对细节的识别能力也随之增强。
而快手自研推出的3D VAE网络,实现了时空同步压缩,相较于Stable Diffusion所用、存在明显的信息冗余的2D VAE空间压缩方案,获得了较高的重建质量的同时在训练性能和效果也取得了最佳平衡。
简单来说“可灵”大模型采用了类Sora的技术路线,并结合了多项自研创新技术。这些技术使得生成的视频不仅展现出电影级别的画质与动态效果,还能模拟大幅度的物理运动。
那么该如何评估快手可灵的技术水平?还是用傅盛的话来评价,用猎豹傅盛的话来说,“可灵的成功,更加证明了,Sora并不是一项技术性突破,而是产品型图片”。这并不是说快手的技术不行,而是目前在视频生成领域并不存在断层式的技术领先,也就意味着可灵的成功是算法、算力、产品之间最优的商业产品,是足够快手人骄傲的产品。
但也正因为如此,因为不存在绝对领先接下来还是要卷算力、卷数据、卷同行,一场没有终点的消耗综合实力的长期马拉松。
02、商业化落地是最难的路
科技媒体The Information报道称,包括微软、亚马逊和Google在内的云厂商和其他销售该技术(指生成式AI)的公司,正在降低自己的预期。一些人已经在担忧生成式AI吹出来的泡泡会不会已经太大了,它是未来,但可能不是现在,就像互联网如今已经是一门万亿美元级别的生意,但并不妨碍千禧年时吹出的互联网泡泡的爆炸结局。
一大批在2023年晋升为独角兽的美国AI公司,已经落入理想难以兑现的窘境。曾经在AI独角兽上排名前3的Inflection两位联合创始人跳槽,微软以6.5亿美元价格获得其模型授权。
排名仅次于Inflection的另一家AI独角兽Cohere也被传出融资困境。这家公司自去年12月就开始寻求以60亿美元估值融资5亿美元,迄今没有确定交易,而它上一轮融资还停留在去年6月。
AI现实主义投资人朱啸虎指出,大模型是很差的商业模式。问题是技术没有差异点,而且每一代技术比如3.5可能就要几千万美金,4.0可能要几亿美金,5.0可能要几十亿美金,每一代模型你都要重新去砸钱,而且你变现周期可能就两三年,这比发电厂还要差。
对于快手来说,融资问题可能并不紧张,但目前可灵并没有展现很强的业务能力实现商业闭环。单点工具的价值目前认可度并不高,国内有妙鸭相机,国外有Suno、midjourney。往往这类产品盈利模式单一,主要就是充会员和买积分购买服务。更何况目前还是免费的可灵。
好用也不等于付费高。
典型的就是GPTs应用商店多数应用需要付费使用, The Information 的报道提到,一位开发人员分析了 3.6 万多个 GPTs,其中约有 5% 每天有 150 至 500 名活跃用户,但绝大多数每天只有 1 到 2 个用户。
就连GPT本身地表最强AI付费用户比例也不能算高,2023 年 11 月,ChatGPT 的每周活跃用户数已达 1 亿。热闹归热闹,付费率没有想象得高。有人估计,ChatGPT 付费用户大概在 500 万到 800 万之间。
而快手可灵的数据相比就更一般了,可灵唯一的使用渠道就是快手创作工具快影 App,但快影 App 的下载数据并没有太大的波动。根据七麦数据,App Store 近七日日均下载量仍旧维持在 2 万左右,在应用(免费)和摄影与录像(免费)榜单上的排名依然保持稳定,并没有太大的变化曲线。
未到终局“群狼环伺”。
事实上,腾讯和字节等互联网公司,同样拥有视频生成大模型,只是尚未完全公测或者效果不尽人意。字节跳动剪映旗下的产品「即梦」就具备短视频生成功能,可以选择运镜类型、视频比例和运动速度,生成 3-6 秒的视频,但在视频呈现效果和时间长度上,并没有展示出比肩 Sora 的优势。不过字节已经计划重新发布类Sora产品。
来自生数科技的Vidu 发布时,一度宣称自己是「中国版Sora」,官方演示的确不错,但后续乏力,还需要更多观察。另一个被认为可与 Sora 对垒的是 PixVerse,来自爱诗科技,五月时发布了最新的「魔术笔刷」功能,能够更精准地控制画面局部动态。
更不要说老牌生成式 AI 平台 Runway 近期在官网宣布,其文生视频模型 Gen-3 Alpha 向所有用户开放使用。Gen-3 在转场设计和镜头运动方面提升明显效果惊艳,意味着有一定创作能力的用户,可以这样关键的创意节点上,借助文生视频工具生成影像方案预览。这样的应用才意味更多创作可能,离商业会更进一些。
可灵大模型很强但还不够强。
可灵在技术上还和Sora有一定差距,除了语义理解问题、生成画面有时不符合物理世界规律、真实性差等“硬伤”外,“画风质感一言难尽”“美观性欠佳”“快手味过浓”也是被频繁提及的关键词。
根据接近快手人士透露,当下,可灵暂无商业化计划,也不对外提供API。这就意味着,从投资层面来看,可灵对于快手近几个季度的业绩并无太大贡献。而从快手近期在二级市场的表现来看,也可以印证,可灵似乎对于快手的帮助不大。。
在快手视觉生成与互动中心负责人万鹏飞演讲中,在谈到可灵的未来时曾提到,“视频创作的门槛和效果的ROI大幅度提升,视频创作者和消费者界限逐渐模糊。越来越多消费者变成创作者,对于视频创作生态的繁荣是非常有价值的。”
不过目前惊艳的AI作品还比较少,更多是关于影视的一些梗图创作,低质量的AI作品充斥平台。快手显然也明白这一点,今年6月,快手电商发布了使用AIGC能力直播的倡议公告,称“我们更希望看到真实的直播内容,鼓励商家/达人和老铁们进行实时良好的互动,建立更加深厚的情感,同时,有意利用AIGC的低成本优势生产出的低质量内容更是平台不愿意看到的内容生产行为”。因此,“使用AIGC能力辅助创作的内容相较于其他实时直播内容,平台不会给予特殊的流量扶持。”
可灵在投入上限上快手并没有计划表,烧钱以亿的大模型是个无底洞的吞金猛兽,如果快手不能提供无限子弹后续还真不好说。大模型行业此前公开过相关数据,大模型要实现 Sora 类似的水平,就需要有千卡级别的算力,进一步优化能力则需要万卡级别的算力,这意味着需要大规模算力集群的调动能力,比黄金还贵的AI显卡在当下是稀缺资源。
相比快手可灵的C端打法,投资人更青睐字节的大模型策略,快手在大模型上的策略仅仅有可灵依然是不够的。字节跳动豆包大模型最明显的策略和标签就是成本低,通过价格战大幅降低模型推理的单位成本,吸引 B 端客户进入火山引擎的云服务之中。有了大量B端付费用户其运营成本会进一步降低,实现效益更好的生成式视频模型不在话下。可灵一定需要商业化,C端跑通可能比B端更困难。
03、大模型卷起来不是坏事
大模型竞争依然处于初期,语言大模型还是多模态大模型都是如此,如何把应用落地做好,把成本最低,依然是当下大模型行业面临的共同命题。
从某种程度上,目前可灵战略意义大于商业意义,快手需要大模型在行业立足,无论是对快手内容生态还是商业开发上面,做好视频大模型有益无害,比别人多走一步同样是领先,这点不用质疑。
正如百度创始人李彦宏在 WAIC 上所说:
去年的百模大战造成了社会资源的巨大浪费,尤其是算力浪费,但同时也使得中国追赶世界上最先进基础模型的能力得到了建立。
李彦宏呼吁行业不要卷模型,要去卷应用,没有应用,光有一个基础模型,不管是开源还是闭源都一文不值。
所以属于可灵们的时代才刚刚开始。