OpenAI发布Sora的当天,绿洲资本董事总经理胡哲人正在老家陪家人过春节假期。看到新闻之后,他第一时间到OpenAI官网查看了Sora的资料。“看得越多,感受到的冲击和震撼就越大。”
过去一年,胡哲人几乎把AIGC领域文生图、文生视频的项目看了个遍,对Runway、Pika等海外公司的动态盯得也比较紧。但看到Sora的视频演示片段,他还是有一种完全意想不到的感觉。
很多AI投资人的反应和他类似。在ChatGPT出现之后,他们就一直在讨论文生视频的技术以及商用价值。但按他们的评估,距离技术成熟达到商用水平至少需要两年,没人预料到进展这么快。
“视频demo会不会是假的?”
包括胡哲人在内的多位投资人看完Sora发布的新闻之后,都产生了类似的怀疑。
理由是OpenAI公司前段时间遭遇了创始人被驱逐等诸多风波,现在为了抬高估值继续融资,它急需放出一个吸引眼球的东西。
胡哲人的怀疑则来自于OpenAI并没有把Sora开放,绝大部分人都无法使用,只能看他们放出的演示。作为每年在国内看大量项目的投资人,直觉告诉他,这个东西没有像ChatGPT一样成为一个人人可用的产品,只能说明它还不成熟。
他立刻和自己在上海交大的直系师弟进行了沟通,对方是非常知名的人工智能科学家。经过双方交流,再结合OpenAI官网产品信息介绍和技术报告,胡哲人基本可以确认OpenAI的Sora不是忽悠。
他仍然想得到更确切的信息,最终辗转找到了在美国的朋友得到了Sora的内测机会。“我现在比较确认Sora是有真材实料的,而不是一个只为了宣传的纯市场行为。”
一、怎么会这么快?
在Google发布Gemini 1.5的当天,OpenAI放出了Sora,彻底打压了前者的热度。
在正式发布之后,OpenAI相关团队成员便不断在社交平台X上放出Sora的演示。它能根据用户的文字提示,生成一段从细节精度、多样性到对物理规律的理解上都令人惊叹的视频。
这些内容被集合推送至OpenAI的TikTok账号上,短短5天内便获得了51.3万次赞,粉丝数也涨至10.6万。
除了演示视频,OpenAI还放出了两份文件,一份是上线声明,一份是技术报告。不过,自去年多模态大模型GPT-4问世之后,OpenAI官方释出的报告愈发精简,不再把细节公之于众。
比如这次就只字未提与模型架构、数据规模、训练成本等相关的重点议题。外界只能结合报告,并通过已有的视频做各种技术推演。
在深入这一领域的研究者看来,Sora在关键指标上碾压了目前市面上最好的文生视频产品们。
制图:何苗
研究员Li Jun Yu目前在参与Google的VideoPoet项目,它是Google唯一有望和Sora形成竞争的产品。他在播客节目OnBoard!上表示,VideoPoet在生成视频时长和分辨率这两点都不及Sora, “我们的时长在2秒到5秒之间,很难一下子做到60秒。”
这是极大的差距。一个视频从几秒到一分钟,不是单纯时间长度的升级,而是数据量、数据复杂度以及构建视频空间连贯性、一致性这些信息的指数级增加。
目前,业界普遍猜测Sora的成功延续了OpenAI的Scaling law法则,即通过海量的数据,大量的算力,再加上大参数模型,最终“大力出奇迹”。
出门问问创始人李志飞认为,Sora很可能是训练时将OpenAI的大语言模型LLM作为起点,然后再加入视频的模态继续训练。“Sora团队只有13人,肯定是大规模复用了大语言模型的东西。”云启资本合伙人陈昱表示,其在2021年底天使轮投资了多模态基础模型公司MiniMax。
OpenAI似乎短期内不会向大众开放Sora。除了在社交平台上与CEO Sam Altman互动,外界并不能直接参与到Sora内测中去。OpenAI自己解释称,技术仍存在一些缺陷,包括一些空间问题。
不过,这并不妨碍它成为现在世界上最强的文生视频产品。OpenAI的技术报告也在标题上赫然指出,Sora这种视频生成模型是“世界的模拟器”。
二、“是不是又要换方向了?”
同样经历了Sora带来的震撼之后,一批应用层AI创业者开始坐不住了。
“是不是又要换方向了?”一位文生视频公司的创始人表达了他的挫败感。
目前,国内有100多家专门做AI文生图和AI文生视频的公司。去年下半年,Runway一些源代码释出,国内还出现了一批专门使用Runway做文生视频的公司。
因为ChatGPT的走红带火了整个AIGC赛道,投资机构也非常倾向于投资文生图和文生视频类公司,因为这类公司的产品和服务能够很快出来,做出来的产品也比较酷炫。
制图:何苗
“就像炒股,文生视频是非常火爆的题材,去年下半年新入场的初创算是追到了高点,没想到突然又出来Sora,可能有一批你听都没有听过的公司直接就要消失了。”波形智能首席产品官万磊表示。
万磊太熟悉这种感觉了,从去年年初创业以来,他看到了一批又一批AI创业公司因为GPT版本的升级迭代而死掉。
他自己也是典型案例:最开始,万磊做了一个AI英语口语培训应用,主打的是用户可以选择不同性格的英语老师来对话练习,分析自己的语法问题。当时这是一个非常新鲜的创意,几乎没有人能模仿。但当GPT-3.5出来之后,大批竞争对手涌现,OpenAI的升级让训练难度大幅降低。而GPT-4发布之后,这个产品彻底丧失了竞争力,用户可以直接和GPT语音对话,人物角色训练只需要短短几句话就能完成。
同样,去年上半年还涌现一批AI辅助视频创作的公司,但并不像Sora这么智能,还需要素材库的辅助。在嘉程资本创始合伙人李黎看来,Sora把视频素材库类的公司全部都颠覆掉了,这个方向的公司,她所在的机构也不会再投。
但经历了去年一波又一波的技术迭代之后,很多AI创业者和投资人对新技术带来的创业公司倒闭潮已见怪不怪。在他们看来,AI创业就是在这种技术爆炸过程中摩擦成长的。
“Sora的出现对国内的AI创业者也不是坏事。如果你对自己的创业项目还有期待的话,看到Sora之后就可以立刻停掉换方向了。”一位投资人表示,“这其实是救了很多公司,尤其是一些排位比较靠后的AI视频类公司。”
三、“融不到10亿美金,可以洗洗睡了”
在Sora发布之后,国内的基础大模型公司开始了新一轮公关战。
月之暗面率先开战,于2月19日宣布完成了最新一轮10亿美元融资。而另一家公司,在还没有完成新一轮10亿美元融资之际,已经先向媒体放风公布了即将完成融资的消息。
如果说应用层公司对Sora的反应是悲喜交加,那国内做基础大模型的公司更像是遭遇了一次生死存亡的警告。
Sora的出现再次验证了大数据大算力的“暴力美学”,这会逼迫追赶者继续去堆算力,但堆算力就意味着要烧更多的钱。“基础大模型的创业公司,如果融不到10亿美金,可以暂时洗洗睡了。”陈昱表示。
这是一场持久战,10亿美金只是挤上牌桌的资格。要训练一个等效于GPT-4的模型需要5000~10000张H系列的GPU卡,而每张卡的价格高达3万美元,再加上其他配套设备成本,投入可达数亿美元。而这还不包括推理需要的算力和人力成本,未来的模型升级所花费的资金还要上一个数量级。
业界普遍认为,在国内众多基础大模型创业公司中,留下的不会超过5家。当下正是各家公司打融资心理战的时候,多一家公司公布融资信息,就意味着又有几家将被挤下牌桌,需要尽早放弃基础大模型的研发。
制图:何苗
除了创业公司,互联网大厂的情况也并不乐观。
在Sora发布之后,大厂中只有字节跳动公布正在研发一款名为Boximator的创新性视频生成模型。但字节跳动官方给出的回应称:Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。
“这些互联网大厂内部肯定在做,也一定有还没放出来的。但我相信,这些大厂没放出来,只能是因为效果还不尽如人意。”一位行业人士表示。
而在另一位多模态大模型公司开发者看来,在用户端爆火过的模特换装和科目三舞蹈,根本不是真正意义上的文生视频。模特换装是通过改描述词,修改视频元素得成。而科目三舞蹈只是把模版视频里的动作骨骼提取出来,再加到用户上传的自己那张照片上,只能算是动作提取。
“基础大模型核心还是要靠人才。”一位初创AI公司创始人表示。他在一家头部互联网大公司任职多年,熟知大厂内部的情况。他表示,一些大厂内的创业激情已经很少了,组织关系非常固化,年轻人想提一个意见很难。“而大模型真正需要的是年轻人拼了命去干,才能干成的。”
事实上,新一轮抢人战也在打响。最新消息显示,资深人工智能专家,Google VideoPoet项目研究负责人蒋路被挖去了TikTok,这体现出字节不想置身事外的态度。多位字节内部人士告诉记者,去年6月字节内部决定不投资任何大模型公司,把所有精力都专注在自建模型上,但此后其全盘AI工作进展一直不顺。
人才会是算力之外的另一卡点,也是新的变数。昆仑万维董事长兼CEO方汉日前称,目前看,国内大模型公司最稀缺的是核心算法人才,但乐观的是,供需情况会迅速得到缓解。
四、“还是先追上GPT-4吧”
既然Sora生成视频的能力被公认是一项可用的强力资产,那国内有什么方法可以迎头赶上?
“我们现在根本还扯不到多模态的事情上去。”蚂蚁集团一位技术专家告诉记者,Sora问世几天来,他们内部也很焦虑。
“都还不知道接下来要怎么办”。他称。相比阿里战投在大模型领域风光无限,蚂蚁在战投方面安静如斯,其负责多模态的技术主管,日前也跳槽到了一家AI初创公司。
蚂蚁的困境也折射出大公司对于视频生成模型的含混态度。目前在一众头部大模型初创中,只有智谱在文生视频方面有所布局。大厂方面,字节、腾讯、百度披露了视频生成相关工作(UniVG、VideoCrafter2等), 但水花不大。
事实上,有没有视频生成模型也许不那么重要。“ChatGPT之前大家也都有聊天机器人啊……关键是能不能到达那个水准。”某大厂模型业务负责人有些无奈,据其透露,这家大厂暂不打算开展文生视频方面的工作。
初创方面则是另一番局面。去年下半年,国内AIGC领域融资向文生图与视频方向靠拢,一批外界很少听闻的公司悄然成立之后又迅速走向消亡。
文生视频领域剩下的几家佼佼者,包括清华大学计算机系教授朱军的生数科技,原字节跳动视觉技术负责人王长虎创办的爱诗科技,以及前京东副总裁梅涛创办的HiDream。但目前这几家的产品和 Sora 对比,已被全面碾压。
前亚马逊首席科学家,著名深度学习专家李沐建议业界过一阵再来谈Sora,他认同大量媒体的评价,即Sora的工作有点像视频生成界GPT-2到GPT-3的时刻,模型本身跟前作变化不大,但使用了几百倍算力,“目前报告关键问题有所缺失,相信学界和开源界会很快跟进。”
现下,国内基础模型层公司的当务之急并不是努力赶上Sora,而是努力赶上GPT-4。
去年年中,有创业者专门详细测试对比了所有国内主流大模型产品与GPT-4,得到的结论是“有很大进步空间”。科大讯飞董事长刘庆峰则公开表示,国产大模型在复杂知识推理、小样本快速学习、超长文本处理、跨模态统一理解上跟GPT-4还有差距。
“GPT-4放前面,Sora放后面,国内还是先把GPT-4搞好吧。”近日,与陈昱接触的国内大模型创业者们目前也没有特别焦虑,因为大家都沉浸在努力做GPT-4的进程之中,“我知道几家包括大厂内部都在训练,都没有训练完。”据他判断,第二季度会是国内版“GPT-4”真正出炉的节点。
万磊感受到,去年大家普遍都在“卷技术”。这位大厂出身的90后创业者说,如果不做真正技术上的突破,大家对于“国外AI教父是奥特曼,国内是李一舟”的吐槽便会成为现实,这是他最担忧的事情。
“焦虑是没有用的,不解决问题。”嘉程资本创始合伙人李黎称,创业者必须仔细看清楚当前所处的位置,做好能做的事情。
五、还有新机会吗?
当然,面对Sora,其他人不是完全没有机会。
在Sora模型发布的当天,Meta推出了一款全新开源视频预测模型V-JEPA。开源大语言模型在过去一年经历了如火如荼的发展,其中的佼佼者与GPT-4之间的差距已经越来越小。
硅谷风投机构Fusion Fund创始人张璐表示,开源领域有很大的竞争空间。她看好开源平台层面上有新的语言模型能对标GPT-4,当然也会有新的多模态模型能追上Sora。
技术的颠覆是更具想象力的一条道路。
现在业界基本达成共识,Sora所做的是把扩散模型Diffusion和Transformer骨架结合在一起,加上大量的数据和算力最终产生了我们看到的结果。
但这种方式也许不是文生视频的最优解。图灵奖获得者、Meta首席科学家杨立昆就曾多次批判OpenAI的技术路线。Sora的出现赢得所有人的惊叹之后,他也表示这些视频并不代表模型理解了物理世界。
Amino Capital合伙人徐霄羽表示,Pika未来的技术路线也很值得观察。这家初创公司目前正在自建模型。
在对Sora技术路线的质疑声中,老生常谈“作为AI大模型主流架构的Transformer也许并非唯一解”被重新提上日程。硅谷投资人们一直认为,如果能出现其他超越Transformer的新模型,那OpenAI就不会独占鳌头。
面对Sora的横空出世,Runway CEO第一时间在X上发推称,“game on(竞争开始了)” ,表态要和OpenAI正面竞争。
国内技术派创业者也没有示弱。“我们看到Sora也很激动,正在加班加点迎头追赶。”王长虎创办的爱诗科技仍保持乐观,这家公司和Sora完全处在同一赛道之上。
更多应用层的创业者则在思考如何能利用上Sora的能力来帮助自己。
“Sora出来之后,我们非常兴奋,做一个真的有血有肉的电影完全没问题了。”万磊第一时间意识到了公司的新机会,并立刻在合伙人群里分享自己的看法。
他参与创办的新公司主要业务是基于自研模型生成小说、剧本内容。去年,他们还讨论过将业务从剧本创作拓展至成品的短剧生成一条龙服务,但这个方向最终卡在了文生视频的质量上,当时市面上的接口基本都无法达到满意的效果。现在,也许新的机会就要来了。
“现在我们的战略可以重新调整了。”他说。
本文来自微信公众号:多面体InterfaceX (ID:jmchuangxin),作者:肖芳、李京亚,编辑:刘方远