Sora冲击波

制图:何苗

“就像炒股,文生视频是非常火爆的题材,去年下半年新入场的初创算是追到了高点,没想到突然又出来Sora,可能有一批你听都没有听过的公司直接就要消失了。

前亚马逊首席科学家,著名深度学习专家李沐建议业界过一阵再来谈Sora,他认同大量媒体的评价,即Sora的工作有点像视频生成界GPT-2到GPT-3的时刻,模型本身跟前作变化不大,但使用了几百倍算力,“目前报告关键问题有所缺失,相信学界和开源界会很快跟进。

OpenAI发布Sora的当天,绿洲资本董事总经理胡哲人正在老家陪家人过春节假期。看到新闻之后,他第一时间到OpenAI官网查看了Sora的资料。“看得越多,感受到的冲击和震撼就越大。”

过去一年,胡哲人几乎把AIGC领域文生图、文生视频的项目看了个遍,对Runway、Pika等海外公司的动态盯得也比较紧。但看到Sora的视频演示片段,他还是有一种完全意想不到的感觉。

很多AI投资人的反应和他类似。在ChatGPT出现之后,他们就一直在讨论文生视频的技术以及商用价值。但按他们的评估,距离技术成熟达到商用水平至少需要两年,没人预料到进展这么快。

“视频demo会不会是假的?”

包括胡哲人在内的多位投资人看完Sora发布的新闻之后,都产生了类似的怀疑。

理由是OpenAI公司前段时间遭遇了创始人被驱逐等诸多风波,现在为了抬高估值继续融资,它急需放出一个吸引眼球的东西。

胡哲人的怀疑则来自于OpenAI并没有把Sora开放,绝大部分人都无法使用,只能看他们放出的演示。作为每年在国内看大量项目的投资人,直觉告诉他,这个东西没有像ChatGPT一样成为一个人人可用的产品,只能说明它还不成熟。

他立刻和自己在上海交大的直系师弟进行了沟通,对方是非常知名的人工智能科学家。经过双方交流,再结合OpenAI官网产品信息介绍和技术报告,胡哲人基本可以确认OpenAI的Sora不是忽悠。

他仍然想得到更确切的信息,最终辗转找到了在美国的朋友得到了Sora的内测机会。“我现在比较确认Sora是有真材实料的,而不是一个只为了宣传的纯市场行为。”

一、怎么会这么快?

在Google发布Gemini 1.5的当天,OpenAI放出了Sora,彻底打压了前者的热度。

在正式发布之后,OpenAI相关团队成员便不断在社交平台X上放出Sora的演示。它能根据用户的文字提示,生成一段从细节精度、多样性到对物理规律的理解上都令人惊叹的视频。

这些内容被集合推送至OpenAI的TikTok账号上,短短5天内便获得了51.3万次赞,粉丝数也涨至10.6万。

除了演示视频,OpenAI还放出了两份文件,一份是上线声明,一份是技术报告。不过,自去年多模态大模型GPT-4问世之后,OpenAI官方释出的报告愈发精简,不再把细节公之于众。

比如这次就只字未提与模型架构、数据规模、训练成本等相关的重点议题。外界只能结合报告,并通过已有的视频做各种技术推演。

在深入这一领域的研究者看来,Sora在关键指标上碾压了目前市面上最好的文生视频产品们。

制图:何苗

研究员Li Jun Yu目前在参与Google的VideoPoet项目,它是Google唯一有望和Sora形成竞争的产品。他在播客节目OnBoard!上表示,VideoPoet在生成视频时长和分辨率这两点都不及Sora, “我们的时长在2秒到5秒之间,很难一下子做到60秒。”

这是极大的差距。一个视频从几秒到一分钟,不是单纯时间长度的升级,而是数据量、数据复杂度以及构建视频空间连贯性、一致性这些信息的指数级增加。

目前,业界普遍猜测Sora的成功延续了OpenAI的Scaling law法则,即通过海量的数据,大量的算力,再加上大参数模型,最终“大力出奇迹”。

出门问问创始人李志飞认为,Sora很可能是训练时将OpenAI的大语言模型LLM作为起点,然后再加入视频的模态继续训练。“Sora团队只有13人,肯定是大规模复用了大语言模型的东西。”云启资本合伙人陈昱表示,其在2021年底天使轮投资了多模态基础模型公司MiniMax。

OpenAI似乎短期内不会向大众开放Sora。除了在社交平台上与CEO Sam Altman互动,外界并不能直接参与到Sora内测中去。OpenAI自己解释称,技术仍存在一些缺陷,包括一些空间问题。

不过,这并不妨碍它成为现在世界上最强的文生视频产品。OpenAI的技术报告也在标题上赫然指出,Sora这种视频生成模型是“世界的模拟器”。

二、“是不是又要换方向了?”

同样经历了Sora带来的震撼之后,一批应用层AI创业者开始坐不住了。

“是不是又要换方向了?”一位文生视频公司的创始人表达了他的挫败感。

目前,国内有100多家专门做AI文生图和AI文生视频的公司。去年下半年,Runway一些源代码释出,国内还出现了一批专门使用Runway做文生视频的公司。

因为ChatGPT的走红带火了整个AIGC赛道,投资机构也非常倾向于投资文生图和文生视频类公司,因为这类公司的产品和服务能够很快出来,做出来的产品也比较酷炫。

制图:何苗

“就像炒股,文生视频是非常火爆的题材,去年下半年新入场的初创算是追到了高点,没想到突然又出来Sora,可能有一批你听都没有听过的公司直接就要消失了。”波形智能首席产品官万磊表示。

万磊太熟悉这种感觉了,从去年年初创业以来,他看到了一批又一批AI创业公司因为GPT版本的升级迭代而死掉。

他自己也是典型案例:最开始,万磊做了一个AI英语口语培训应用,主打的是用户可以选择不同性格的英语老师来对话练习,分析自己的语法问题。当时这是一个非常新鲜的创意,几乎没有人能模仿。但当GPT-3.5出来之后,大批竞争对手涌现,OpenAI的升级让训练难度大幅降低。而GPT-4发布之后,这个产品彻底丧失了竞争力,用户可以直接和GPT语音对话,人物角色训练只需要短短几句话就能完成。

同样,去年上半年还涌现一批AI辅助视频创作的公司,但并不像Sora这么智能,还需要素材库的辅助。在嘉程资本创始合伙人李黎看来,Sora把视频素材库类的公司全部都颠覆掉了,这个方向的公司,她所在的机构也不会再投。

但经历了去年一波又一波的技术迭代之后,很多AI创业者和投资人对新技术带来的创业公司倒闭潮已见怪不怪。在他们看来,AI创业就是在这种技术爆炸过程中摩擦成长的。

“Sora的出现对国内的AI创业者也不是坏事。如果你对自己的创业项目还有期待的话,看到Sora之后就可以立刻停掉换方向了。”一位投资人表示,“这其实是救了很多公司,尤其是一些排位比较靠后的AI视频类公司。”

三、“融不到10亿美金,可以洗洗睡了”

在Sora发布之后,国内的基础大模型公司开始了新一轮公关战。

月之暗面率先开战,于2月19日宣布完成了最新一轮10亿美元融资。而另一家公司,在还没有完成新一轮10亿美元融资之际,已经先向媒体放风公布了即将完成融资的消息。

如果说应用层公司对Sora的反应是悲喜交加,那国内做基础大模型的公司更像是遭遇了一次生死存亡的警告。

Sora的出现再次验证了大数据大算力的“暴力美学”,这会逼迫追赶者继续去堆算力,但堆算力就意味着要烧更多的钱。“基础大模型的创业公司,如果融不到10亿美金,可以暂时洗洗睡了。”陈昱表示。

这是一场持久战,10亿美金只是挤上牌桌的资格。要训练一个等效于GPT-4的模型需要5000~10000张H系列的GPU卡,而每张卡的价格高达3万美元,再加上其他配套设备成本,投入可达数亿美元。而这还不包括推理需要的算力和人力成本,未来的模型升级所花费的资金还要上一个数量级。

业界普遍认为,在国内众多基础大模型创业公司中,留下的不会超过5家。当下正是各家公司打融资心理战的时候,多一家公司公布融资信息,就意味着又有几家将被挤下牌桌,需要尽早放弃基础大模型的研发。

制图:何苗

除了创业公司,互联网大厂的情况也并不乐观。

在Sora发布之后,大厂中只有字节跳动公布正在研发一款名为Boximator的创新性视频生成模型。但字节跳动官方给出的回应称:Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

“这些互联网大厂内部肯定在做,也一定有还没放出来的。但我相信,这些大厂没放出来,只能是因为效果还不尽如人意。”一位行业人士表示。

而在另一位多模态大模型公司开发者看来,在用户端爆火过的模特换装和科目三舞蹈,根本不是真正意义上的文生视频。模特换装是通过改描述词,修改视频元素得成。而科目三舞蹈只是把模版视频里的动作骨骼提取出来,再加到用户上传的自己那张照片上,只能算是动作提取。

“基础大模型核心还是要靠人才。”一位初创AI公司创始人表示。他在一家头部互联网大公司任职多年,熟知大厂内部的情况。他表示,一些大厂内的创业激情已经很少了,组织关系非常固化,年轻人想提一个意见很难。“而大模型真正需要的是年轻人拼了命去干,才能干成的。”

事实上,新一轮抢人战也在打响。最新消息显示,资深人工智能专家,Google VideoPoet项目研究负责人蒋路被挖去了TikTok,这体现出字节不想置身事外的态度。多位字节内部人士告诉记者,去年6月字节内部决定不投资任何大模型公司,把所有精力都专注在自建模型上,但此后其全盘AI工作进展一直不顺。

人才会是算力之外的另一卡点,也是新的变数。昆仑万维董事长兼CEO方汉日前称,目前看,国内大模型公司最稀缺的是核心算法人才,但乐观的是,供需情况会迅速得到缓解。

四、“还是先追上GPT-4吧”

既然Sora生成视频的能力被公认是一项可用的强力资产,那国内有什么方法可以迎头赶上?

“我们现在根本还扯不到多模态的事情上去。”蚂蚁集团一位技术专家告诉记者,Sora问世几天来,他们内部也很焦虑。

“都还不知道接下来要怎么办”。他称。相比阿里战投在大模型领域风光无限,蚂蚁在战投方面安静如斯,其负责多模态的技术主管,日前也跳槽到了一家AI初创公司。

蚂蚁的困境也折射出大公司对于视频生成模型的含混态度。目前在一众头部大模型初创中,只有智谱在文生视频方面有所布局。大厂方面,字节、腾讯、百度披露了视频生成相关工作(UniVG、VideoCrafter2等), 但水花不大。

事实上,有没有视频生成模型也许不那么重要。“ChatGPT之前大家也都有聊天机器人啊……关键是能不能到达那个水准。”某大厂模型业务负责人有些无奈,据其透露,这家大厂暂不打算开展文生视频方面的工作。

初创方面则是另一番局面。去年下半年,国内AIGC领域融资向文生图与视频方向靠拢,一批外界很少听闻的公司悄然成立之后又迅速走向消亡。

文生视频领域剩下的几家佼佼者,包括清华大学计算机系教授朱军的生数科技,原字节跳动视觉技术负责人王长虎创办的爱诗科技,以及前京东副总裁梅涛创办的HiDream。但目前这几家的产品和 Sora 对比,已被全面碾压。

前亚马逊首席科学家,著名深度学习专家李沐建议业界过一阵再来谈Sora,他认同大量媒体的评价,即Sora的工作有点像视频生成界GPT-2到GPT-3的时刻,模型本身跟前作变化不大,但使用了几百倍算力,“目前报告关键问题有所缺失,相信学界和开源界会很快跟进。”  

现下,国内基础模型层公司的当务之急并不是努力赶上Sora,而是努力赶上GPT-4。

去年年中,有创业者专门详细测试对比了所有国内主流大模型产品与GPT-4,得到的结论是“有很大进步空间”。科大讯飞董事长刘庆峰则公开表示,国产大模型在复杂知识推理、小样本快速学习、超长文本处理、跨模态统一理解上跟GPT-4还有差距。

“GPT-4放前面,Sora放后面,国内还是先把GPT-4搞好吧。”近日,与陈昱接触的国内大模型创业者们目前也没有特别焦虑,因为大家都沉浸在努力做GPT-4的进程之中,“我知道几家包括大厂内部都在训练,都没有训练完。”据他判断,第二季度会是国内版“GPT-4”真正出炉的节点。

万磊感受到,去年大家普遍都在“卷技术”。这位大厂出身的90后创业者说,如果不做真正技术上的突破,大家对于“国外AI教父是奥特曼,国内是李一舟”的吐槽便会成为现实,这是他最担忧的事情。

“焦虑是没有用的,不解决问题。”嘉程资本创始合伙人李黎称,创业者必须仔细看清楚当前所处的位置,做好能做的事情。

五、还有新机会吗?

当然,面对Sora,其他人不是完全没有机会。

在Sora模型发布的当天,Meta推出了一款全新开源视频预测模型V-JEPA。开源大语言模型在过去一年经历了如火如荼的发展,其中的佼佼者与GPT-4之间的差距已经越来越小。

硅谷风投机构Fusion Fund创始人张璐表示,开源领域有很大的竞争空间。她看好开源平台层面上有新的语言模型能对标GPT-4,当然也会有新的多模态模型能追上Sora。

技术的颠覆是更具想象力的一条道路。

现在业界基本达成共识,Sora所做的是把扩散模型Diffusion和Transformer骨架结合在一起,加上大量的数据和算力最终产生了我们看到的结果。

但这种方式也许不是文生视频的最优解。图灵奖获得者、Meta首席科学家杨立昆就曾多次批判OpenAI的技术路线。Sora的出现赢得所有人的惊叹之后,他也表示这些视频并不代表模型理解了物理世界。

Amino Capital合伙人徐霄羽表示,Pika未来的技术路线也很值得观察。这家初创公司目前正在自建模型。

在对Sora技术路线的质疑声中,老生常谈“作为AI大模型主流架构的Transformer也许并非唯一解”被重新提上日程。硅谷投资人们一直认为,如果能出现其他超越Transformer的新模型,那OpenAI就不会独占鳌头。

面对Sora的横空出世,Runway CEO第一时间在X上发推称,“game on(竞争开始了)” ,表态要和OpenAI正面竞争。

国内技术派创业者也没有示弱。“我们看到Sora也很激动,正在加班加点迎头追赶。”王长虎创办的爱诗科技仍保持乐观,这家公司和Sora完全处在同一赛道之上。

更多应用层的创业者则在思考如何能利用上Sora的能力来帮助自己。

“Sora出来之后,我们非常兴奋,做一个真的有血有肉的电影完全没问题了。”万磊第一时间意识到了公司的新机会,并立刻在合伙人群里分享自己的看法。

他参与创办的新公司主要业务是基于自研模型生成小说、剧本内容。去年,他们还讨论过将业务从剧本创作拓展至成品的短剧生成一条龙服务,但这个方向最终卡在了文生视频的质量上,当时市面上的接口基本都无法达到满意的效果。现在,也许新的机会就要来了。

“现在我们的战略可以重新调整了。”他说。

本文来自微信公众号:多面体InterfaceX (ID:jmchuangxin),作者:肖芳、李京亚,编辑:刘方远

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月23日 18:28
下一篇 2024年2月23日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日