追不上Sora的同行有难了

来源:由AI生成

一年之后,Sora已经可以做出一个女人在东京街头漫步的视频,不管是画面质量、连续性和稳定性,还是女人的步态与神情,都已经几乎可以以假乱真,让人连连称赞:文本到视频的进步也太大了。

由Runway生成

StabilityAI。

就在Sora公布的几天之后,2月22日,StabilityAI正式开放了Stable。

Sora公布第10天,同行已经坐不住了。

2月16日,中国大年初七,OpenAI公布了全新的生成式人工智能模型Sora:输入自然语言指令,输出至多60秒的视频。

从文本到视频的生成式AI模型并不新鲜,但Sora——就像ChatGPT——一样,因其断崖式的质量提升,登时点燃了互联网。高清的画质,流畅的画面,乍看之下颇为自然的物理轨迹,和一年前近乎鬼畜的“威尔·史密斯吃意大利面”视频看起来像隔了一个世纪,同行去年才发布的AI产品与之相比也黯然失色。

10天很短,但在AI领域却足以生变。

至少有两家AI界“当红炸子鸡”站了出来:2月22日,StabilityAI正式开放Stable Video的公测,该产品背后的模型Stable Video Diffusion去年11月就已经发布。几乎同时,另一家在文生图领域颇有建树的Midjourney也透露,可能会在下一次迭代时包含视频功能。

昔日“炸子鸡”站在阴影中,追不上Sora的同行有难了。

在接受了Sora演示视频的直接冲击之外,人们立刻开始做纵向和横向的比较。

纵向比较,人们拿出了一年前“威尔·史密斯吃意大利面”的AI视频。这位好莱坞明星脸部变形严重、面的形态千变万化,分分钟触发恐怖谷效应,越看越诡异。

来源:由AI生成

一年之后,Sora已经可以做出一个女人在东京街头漫步的视频,不管是画面质量、连续性和稳定性,还是女人的步态与神情,都已经几乎可以以假乱真,让人连连称赞:文本到视频的进步也太大了。

来源:由Sora生成

可惜的是,尽管无数网友在OpenAI CEO山姆·奥特曼(Sam Altman)的社交媒体账号下求Sora版本的“威尔·史密斯吃意大利面”,并没能得偿所愿。倒是史密斯本人跑出来整了个活儿,真人拍摄,“伪造”了一个新版本。你别说,还真差点给人骗过去——真人都能拍视频假装是AI生成的了,倒也足见Sora视频的高质量。

横向对比,同行就有点尴尬了。OpenAI把每一个Sora演示视频的文本指令都公布了,虽然人们不能直接用Sora,但是可以拿着指令去市面上已有的产品里试,看看有什么差别。

不试不要紧,一试吓一跳:看到Sora视频的时候就觉得厉害,看了同行的表现更对Sora的威力有了新的认知。

同样是女人在东京街头漫步的指令,Runway生成的视频暂停看还都像那么回事,连起来就只能用“千变万化”形容,女人的形象并不能随着时间的推移保持稳定。要知道Sora的演示视频中还有机位的变化,从远景到脸部特写,女人的形态始终如一。Runway生成的视频更像是很多张图片的动态融合。

由Runway生成

StabilityAI——就是那个开源了文生图Stable Diffusion的公司——的Stable Video生成的画面清晰度和美观度都很不错,但是女人的脸变形严重,看起来很像一个骷髅头,诡异感拉满。

由Stable Video生成

Pika则有些取巧,其画面相对流畅,但比较模糊,且并非写实风格。

由Pika生成

此外,打闹的猛犸象、行驶中的汽车、俯瞰的景观、看蜡烛的小怪物等指令都被网友做了横向对比,Sora并非和同行打得有来有回,而是碾压了同行。

一朝之间,文生视频当红“炸子鸡”发现自己站在了OpenAI投下的阴影中。

从文本到视频的AI工具并不是新鲜事物。在2023年,多个文本到视频AI工具问世,Runway、PikaLabs(下称Pika)、StabilityAI等初创公司在这个赛道都备受瞩目,热钱不断,估值暴涨。

其中Runway成立于2018年,3月开放Gen-2内测,6月正式对外发布。此前有Gen-1图像到视频AI工具。Runway同时还技术支持了多部电影。其中最大名鼎鼎的是奥斯卡获奖影片《瞬息全宇宙》。

Runway的CEO兼联合创始人克里斯托瓦尔·巴仑苏埃拉(Cristóbal Valenzuela)说:“我们已经看到了图像生成模型的爆发。我相信,2023 年将会是视频之年。”

在5月时,Runway已经完成了1.41亿美元的D轮融资,投资方包括谷歌、英伟达等,估值暴涨三倍,达到15亿美元,

Pika去年4月刚刚成立,A轮融资达5500万美元,估值登时超过2亿美元,11月就发布了第一个文本到视频产品Pika1.0。到了12月时,其用户已有超过50万,每周生成近百万视频内容。

而StabilityAI则因其文本到图像工具Stable Diffusion名声在外,早在2022年获得1亿美元融资后,估值就已经超过了10亿美元,成为独角兽企业。去年11月,Stable Video Diffusion发布,注意后面还有一个“Diffusion”后缀,这是一个基于Stable Diffusion的生成式视频基础模型,需要用户自己部署使用,还不算面向大众发布的产品。

三家初创公司,2023年三个重要生成式视频产品/模型,突然就被Sora会心一击。

在OpenAI兴冲冲向世界展示Sora之后,Runway的CEO巴仑苏埃拉在社交平台X上发帖:“游戏开始(Game On)。”而StabilityAI的CEO兼创始人莫斯塔克(Emad Mostaque)则将奥特曼称作“巫师大人”。

从演示视频来看,Sora的确有改变游戏格局的威力,跟不上Sora的同行有难了。

参照ChatGPT发布之后,虽然AI浪潮让投资人热情高涨,AI初创公司如雨后春笋般冒出来,新晋独角兽一个接着一个。但这是一个冰火两重天的故事,不少AI创业公司走上下坡路,或寻求收购,或大幅裁员,甚至就此寿终正寝。据智东西梳理,仅2023年11月到2024年1月,全球就有AI新闻初创企业Artifact、AI医疗公司Olive等4家AI初创企业宣布关停。

The Infoemation称,至少有7家开发生成式视频的AI公司,共筹集了至少5.5亿美元的资金。有投资人私下对The Information表示,之前刚刚错过某热门AI视频初创企业的融资,看到Sora的视频后“感到庆幸”。

人工智能赛道热度高,但门槛也高,厮杀之中刀光剑影,掉队就可能掉入坟墓。

知名AI初创企业Huggine Face在一篇博文中,提到了文本到视频的三大挑战:算力挑战,确保跨帧空间与实践的一致性伴随着高计算成本,使得大多数研究人员无法负担这类模型的训练费用;缺乏高质量数据集,用于文本到视频生成的多模态数据集非常稀少,而且经常缺乏注释;指令模糊性,如何以一种让模型更容易学习的方式描述视频不是一件容易的事。

即便是看似站稳了脚跟的StabilityAI都麻烦不断。去年6月,福布斯发布一则长新闻,超过30位StabilityAI前员工和投资人细数创始人兼CEO莫斯塔克的9大罪证,包括:窃取StableDiffusion成果融资10亿;隐瞒融资困难;夸大公司收入;拖欠员工工资;学历和工作经历造假。

抛开其他不谈,硅谷“当红炸子鸡”却又融资困难、公司收入被夸大的问题,着实令人意外。知情人士称,StabilityAI每个月的开销大概是800万美元,而莫斯塔克却曾自爆公司8月的营收大概在120万美元,有机会超过300万美元。莫斯塔克很快就删除了该帖,但从这个数字不难闻到烧钱的味道。

11月,也就是其发布Stable Video Diffusion模型的同月、公司完成1亿美元融资的一年后,StabilitAI传出多位高级管理人员辞职、公司财务状况脆弱的消息,并一度传闻考虑出售,这一消息随后被莫斯塔克否认。

入不敷出、人才流失,StabilityAI的危机暴露了光鲜的热门创企的软肋。

巨头的加入也会让战事更加激烈。在AI视频的赛道,巨头早有布局。2022年10月,Meta和谷歌相继发力。Meta先发布了Make-A-Video模型,仅一周后,谷歌CEO桑德尔·皮查伊(Sundar Pichai)亲自安利他们在这一领域的两个最新成果,Imagen Video和Phenaki,分别强调视频品质和长度。

来源:Meta AI

但不管是Meta还是谷歌,目前都尚未向公众开放其文本到视频AI工具。谷歌官方认为用于训练AI视频模型的数据仍包含有问题的内容,可能会导致Imagen Video产生图形暴力或色情剪辑,造成不良影响。巨头的保守操作大家也都熟悉了,在自然语言聊天机器人的赛道,谷歌也是早早就手握模型但未向C端推出产品,原因也是安全问题。但ChatGPT与微软的联手让巨头走出保守,Sora未尝不能做同样的事。

已经有巨头有新动作。在Sora公布的一周前,字节宣布人事变动,原抖音集团CEO张楠宣布辞去集团CEO一职,未来把精力聚焦在剪映的发展上。据时代周报援引接近剪映的人士,张楠亲自带队寻求在AI辅助创作上突破,并即将推出一个AI生成视频的产品。

面对新开的“游戏”,Sora的同行只能全力向前。

就在Sora公布的几天之后,2月22日,StabilityAI正式开放了Stable Video的公测,从模型走向人人可以方便上手的产品。虽然视频长度还是比较短,只有7秒,但视频质量比较高。莫斯塔克在社交平台上宣传新产品时显得很谦虚,表示开放的原因是:“我们想要创造类似Sora的大型开放的Stable Video2,但需要更多的数据和计算。”

此外,在文生图领域有超高口碑的Midjourney也跑步入场,创始人大卫·霍尔兹(David Holz)在Office Hours中透露,下一个版本,也就是Midjourney V7“可能包含视频功能”。

OpenAI现阶段还在对Sora进行评估,距离Sora正式对外公开可能还有几个月的时间。好消息是,同行还有时间应变。坏消息是,留给同行的时间不多了。

参考资料:

1. 智东西:《AI创业冰火两重天:Sora降世资本狂欢,数家创企倒闭关门》

2. 连线Insight:《Sora来了,字节发力:张楠的重任和挑战》

3. 新火种:《被迫卖身、CEO下台、高管出走,又一家AI独角兽出事》

4. 机器之心:《图像生成卷腻了,谷歌全面转向文字→视频生成,两大利器同时挑战分辨率和长度》

5. 财联社:《AI圈子不太平 知名开源模型开发商Stability AI被曝 “寻求卖身”》

本文来自微信公众号:字母榜(ID:wujicaijing),作者:毕安娣

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年2月26日
Next 2024年2月26日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日