“今天,所有VC的会上都在谈Sora”

Diffusion),甚至已经诞生了垂直于多媒体内容创作大模型的独角兽,例如视频生成大模型Gen-2的开发商Runway,在2023年6月底完成由Google、Nvidia、Salesforce参与的C轮融资后,估值超过15亿美元。

等到2023年2月,Runway发布第一代产品Gen-1,普通用户已经能通过iOS设备进行免费体验,范围除了“真实图像转黏土”“真实图像转素描”这些滤镜式的功能,还包含了“文本转视频”,从而使得Gen-1成为了首批投入商用的文生视频大模型。

仿佛梦回2023。去年年初,ChatGPT引发了普通人澎湃的讨论热情,此后海内外在AI大模型投资上展开了军备竞赛。

龙年刚一开年,OpenAI又打开了新局面。这次火的是文生视频。2月16日凌晨,OpenAI发布了文生视频大模型Sora。Sora能够根据文本提示创建详细的视频、扩展现有视频中的叙述以及从静态图像生成场景。

这类应用早就有了,但Sora的呈现仍然惊艳,视频中的主体稳定可控,可实现多角度切换,时长方面也有突破,最长能生成60秒视频。

不愧是OpenAI。尽管Sora仍处于开发早期阶段,但它的推出已经标志着生成式AI迎来一个里程碑。

资本端同时传来新消息。在完成最新交易后,OpenAI的估值已飙升至800亿美元以上。这笔交易来自于Thrive Capital精心策划的要约收购。

尽管OpenAI和Thrive Capital对此皆不予置评,但小红书博主“Shannon”昨天发的帖子很有情绪的代表性,“明天所有fund开会的议题都有OpenAI的Sora”。

只不过,和去年相比,投资人的心态变了。不是人人都有机会投中OpenAI,但OpenAI的能力边界却实实在在影响着一批创业公司和背后的投资人。

一、“水到渠成”和“令人发指”

首先需要明确,“文生视频大模型”并不是一条全新的赛道。在OpenAI登场之前,头部大模型研发商几乎都拥有自己的文生视频大模型,例如Google的Lumiere以及Stability AI的SVD(Stable Video Diffusion),甚至已经诞生了垂直于多媒体内容创作大模型的独角兽,例如视频生成大模型Gen-2的开发商Runway,在2023年6月底完成由Google、Nvidia、Salesforce参与的C轮融资后,估值超过15亿美元。

更重要的是,上述已有的“视频大模型”,隐隐有了生产力工具的影子。

以Runway为例,与许多“拿着锤子找钉子”式的“技术驱动型”大模型创业团队不同,Runway的三名创始人Valenzuela、Alejandro Matamala和Anastasis Germanidis来自于纽约大学艺术学院,他们共同看到了“人工智能在创造性方面的潜力”,于是决定共商大计,开发一套服务于电影制作人、摄影师的工具。

这层基因打底,相比科技公司的“车库文化”,Runway的发展轨迹更像“横店影视城奋斗史”:先开发了一系列细分到不能再细分的专业创作者辅助工具,针对性地满足视频帧插值、背景去除、模糊效果、运动追踪、音频整理等需求;随后参与到图像生成大模型Stable Diffusion的开发过程中,积累AIGC在静态图像生成方面的技能点,并获得了参与《瞬息全宇宙》等大片制作的机会——这些影片在宣发中曾经有过详细描述,出品人们感叹他们的加入让后期团队“保持了一个超乎常规的小规模”状态,影视同行们惊叹许多复杂的特效制作(比如《瞬息全宇宙》里那两块对话的石头),工期已经从“好几天”缩短到了“几分钟”。

等到2023年2月,Runway发布第一代产品Gen-1,普通用户已经能通过iOS设备进行免费体验,范围除了“真实图像转黏土”“真实图像转素描”这些滤镜式的功能,还包含了“文本转视频”,从而使得Gen-1成为了首批投入商用的文生视频大模型;2023年6月,他们发布了第二代产品Gen-2,训练量上升到了2.4亿张图像和640万段视频剪辑。

2023年8月,爆火B站、全网播放量超过千万、获得郭帆点赞的AIGC作品《流浪地球3预告片》正是基于Gen-2制作。根据作者@数字生命卡兹克 在个人社媒上的分享,整段视频的制作大体分为两部分——由MidJourney生成分镜图,由Gen-2扩散为4秒的视频片段——最终获得素材图693张、备用剪辑片段185条,耗时5天。

半年之后,@数字生命卡兹克 再次通过“MJ V6画分镜-Runway跑视频”制作了一段3分钟的故事短片《The Last Goodbye》,投稿参赛Runway Studios(Runway专门为企业级客户提供定制化服务的部门)所组织的第二届AI电影节Gen48。

换句话说,实际上至少在一年以前,“文生视频大模型”就已经拥有足够的关注度,其目前用户规模也被远远低估。

Runway的联合创始人Valenzuela在C轮融资后透露,除了像New Balance这样的世界500强客户,他们还拥有“数百万个人创作者”。

除此而外,Sora所展现出来的“精准的物理世界还原能力”,也并不是OpenAI独自探索的AI领域。马斯克就在Sora发布的两天半后,也就是2月18日,在科技播客栏目“DrKnowItAll”里留言,“这种精准还原现实世界物理规律的虚拟世界生成能力,特斯拉已经差不多快掌握一年了……只不过因为素材来自车载摄像头,所以视频看上去没那么有趣”。

OpenAI在同期发布的技术论文《Video generation models as world simulators》也明确Sora更像是“数据驱动的物理引擎”,通过大模型的持续扩散来“高性能地模拟物理世界或者数字世界中的人、动物、其他物体”,因此仍然拥有“同行们都会面临”的局限性,例如“很难准确模拟复杂场景的物理原理,并且无法理解因果关系,比如Sora生产一段人咬饼干的片段,饼干可能不会出现咬痕”。

真正带来压迫感的,或许是Sora不可思议的进化速度。

从技术层面看,无论是“拥有精准物理规则的真实世界”“支持60秒视频生成”还是“单视频多机位”都可以被形容为水到渠成,然而正如上面所提到的——如今看起来傻傻的、只支持生成“4秒视频生成”并且“掉帧明显到像幻灯片”的Gen-2其实是2023年6月发布的产品,距离Sora的发布日不过8个月。

2023年11月,Meta发布的视频生成大模型Emu Video看起来在Gen-2上更进一步,能够支持512×512、每秒16帧的“精细化创作”,但3个月之后的Sora已经能够做到生成任意分辨率和长宽比的视频,并且根据上面提到的开发者技术论文,Sora还能够执行一系列图像和视频编辑任务,从创建循环视频到即时向前或向后延伸视频,再到更改现有视频背景等。

而如果要死磕这种不可思议的进化速度,除了“神秘的外星文明”,最现实的解释恐怕只有“海量烧钱”。

作为Runway半个领路人的Stability AI近两年周期性地遭遇“现金流压力”,一会儿传闻高层正在积极探索出售公司,一会儿又流传着早期投资者Coatue Management的内部信,直指“Stability AI的财务状况令人担忧”,建议CEO Emad Mostaque原地辞职。最揪心的传闻是,为了让亚马逊相信自己不会拖欠高达7500万的云服务费用,身为前对冲基金经理的Emad Mostaque选择以个人财产作为担保。

然而从融资的角度看,Stability AI做到了赛道的天花板,其在2022年10月完成超过1亿美元的融资后,估值早早来到了独角兽级别。Emad Mostaque在去年7月的一次采访中忍不住直发狂暴言论,他说:“Bard AI只是因为在宣传片中提供了不准确的信息,就造成了每天超过1000亿美元的损失……人工智能作为基础设施所需的投资总额可能为1万亿美元,这会是人类有史以来最大的泡沫”。

知乎上,一位叫做“像素炼金师”的创业者坦承了他在目睹Sora发布后的心路历程:“我有些害怕科技巨头的产品像隆隆火车一样驶过,而我做的东西如同路边的野草一样,在这个技术进步就像跑马灯一样的时代里,留不下一丝痕迹。”

二、估值800亿和领头羊的边界

无论怎样,OpenAI再次印证了AI“巨无霸”的地位。看似无远弗届的能力,支撑其估值在不到10个月的时间里增长了两倍。CB Insights的数据显示,OpenAI目前是世界上最有价值的科技初创企业之一,仅次于字节跳动和SpaceX。

拓展模型能力的同时,OpenAI还在推进多元化的战略。尤其是在半导体领域,奥特曼正与潜在投资者、半导体制造商和能源供应商等各种利益相关者接触。他甚至在考虑成立一家独立于OpenAI的新公司,进入AI芯片行业。

这笔交易也揭示了,奥特曼之于OpenAI,仍然是不可或缺的角色。原本在去年11月,OpenAI便将敲定最新的融资交易,但当时奥特曼遭遇了解雇风波。交易有没有受到影响不知道,总之结果是,770名员工中的700多人最终签署了请愿书,要求他复职。

细看这轮融资,不是发行新股,而是准许OpenAI员工对外出售所持股份。这对于OpenAI来说并不新鲜。2023年,Thrive Capital、红杉资本、Andreessen Horowitz和K2 Global等风险投资巨头也采取了类似的做法,参与OpenAI的要约收购,当时该公司的估值已经达到290亿美元。

那么,OpenAI的边界在哪里?

这个问题不仅事关OpenAI的估值,也关乎大大小小生成式AI创业公司的前景。

原本在视频生成这个赛道上,海外已经有几家创业公司卡位。最知名的莫过于前文所述的Runway。另一个领头羊是Pika,创立于去年4月,11月宣布完成了总计5500万美金的A轮及天使轮融资,估值达2.5亿美元。Pika由郭文景和孟晨琳共同创立,两人都曾是斯坦福大学人工智能实验室的博士生,履历亮眼。郭文景还被誉为“华裔天才少女”。

OpenAI会冲击这些公司吗?别急,Sora 公开后,有海外博主已经对几家公司的产品做了对比。他给Sora、Pika、Runway和Stable Video四个模型输入了相同的prompt。结论是,Sora在生成时长、连贯性等方面都有显著的优势。

必须要说,这几家做文生视频的公司都开发了自己的大模型,而非纯粹地基于别人的大模型来开发应用场景的那类公司。但即使有技术护城河,要抵挡OpenAI的冲击也没那么容易。

当然,这并不是说,纯做应用的公司完全没有前途了,背后也许涉及到一个发展阶段的问题。

去年,红杉资本的两位合伙人再次发表文章,复盘一年前自己对市场的看法。他们指出,其中一个预测错误是,垂直分离尚未发生。“我们仍然相信应用层公司和基础模型提供商之间会有分离,模型公司专注于规模和研究,应用层公司专注于产品和UI。但在实际上,这种分离还没有干净利落地发生。最初面向用户的应用中,最成功的那些都是垂直整合的公司。”

三、国内也是类似的局面

有投资人告诉我,他们关注的一家AIGC公司也在开发基于特定产业数据的独有的模型,而不是仅仅调用别人的API。“不然很难指望他们在应用层面做出真正差异化的东西。”

回头看,过去一年,OpenAI的每一次技术突破,都会拓展资本对它的想象空间,但同时也堵上一部分创业公司的前进之路。

“AGI去年已经把软件行业毒死了。现在公众只是在目睹毒发的过程。”有创业者在转发一则Sora的消息时,在朋友圈评论道。

所以,AI投资难,尤其是应用层。“重点还是界定清楚,什么东西能在大模型的演进过程中受益,什么东西又在大模型演进过程中被瓦解。”一位AI投资人曾模糊地告诉我。但OpenAI的超能力使得这个关键问题没那么容易预判。

再看大模型。《北京最火独角兽翻6倍了》一文写过,智谱AI去年一年的估值已经翻了6倍多,已经有投资人给出200亿估值。我最近也听说,百川智能和MiniMAX,最近都传出新一轮融资已到位的消息。OpenAI出新招,这些公司不可能不焦虑。好在弹药尚且充足。Sora的诞生,无疑又将引发新一轮追赶。

借着Sora火热,AI的相关概念必将再炒一波,尤其是英伟达这类充当卖水人,又可以大赚一笔了。但对于一级市场的创业者和投资人而言,我只能说,暂时,继续卷罢。

本文来自微信公众号:投中网 (ID:China-Venture),作者:刘燕秋、蒲凡

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年2月18日
Next 2024年2月18日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日