OpenAI的Sora会砸掉谁的饭碗?

来自Sora生成视频截图

更令人惊讶的是,Sora视频在构图、色彩、创意和运镜方面,都呈现出明显的电影风格,无论是一镜到底还是多机位都可以无缝切换,甚至还有“演员”的表情神态,这是此前的文生视频产品所不具备的。

六、电影电视TikTok化

随着文生视频模型Sora的惊艳亮相,或许整个好莱坞从业人员都会面临着一个巨大的疑问:按照AI的指数级进化速度,或许不需要再等待多久,AI就可以生成一部完整剧情的短片甚至电影,从剧本到拍摄到表演到后期都可以完全搞定,那么好莱坞的未来会变成什么样子。

不约而同,同日出招。两个AI巨头在同一天各自放出了自己的AI新核武器,OpenAI的文生视频模型Sora又一次赢得了满堂彩。Sora的惊艳亮相,不仅碾压了诸多AGI视频同行,更有可能改变电影电视广告游戏行业的未来游戏规则。

一、谷歌新模式性能完胜

周四,谷歌突然发布了新一代多模态大模型Gemini 1.5 Pro,在与OpenAI的大模型之战中加速超越。这是业界迄今最强的大语言模型,最高可支持10,000K Token上下文,直接将性能提升到了百万级别,在性能上完全秒杀了OpenAI的GPT-4 Turbo。

百万级别Token意味着什么?谷歌AI项目负责人杰夫·迪恩(Jeff Dean)解释说,在Gemini 1.5 Pro百万级别上下文窗口支持能力下,用户可以完成复杂的内容交互,轻松解析整本图书、电影、播客,理解非常长的文档,甚至是数百个文件数十万行的代码库。

Gemini 1.5 Pro的发布,意味着谷歌在和OpenAI的军备竞赛中占据了强大的性能优势。相比之下,OpenAI的GPT-4 Turbo只能处理128k Token,而且近期更是出现了性能下滑的不利状况,直到上个月发布更新之后才有所改善。

然而,OpenAI并没有让谷歌独美。就在同一天,他们发布了文本生成视频的AI模型Sora,只需文本就能自动生成视频;继文本模型ChatGPT和图片模型Dall-E之后,OpenAI又开始颠覆视频领域。

相比谷歌Gemini 1.5 Pro基于数据性能的硬实力优势,Sora基于视觉美学的惊艳表现,显然更容易让人印象深刻,迅速成为了社交网站上的热点。

二、以假乱真细节惊艳

Sora到底惊艳在哪里?OpenAI展示了多段Sora制作的视频内容,光是这些片段,就已经足够让人大跌眼镜。OpenAI在官方博客中写道,Sora不仅可以理解用户的需求,还知道这些事物在现实世界如何存在。

只需要输入一段文本,Sora就能自动生成最长一分钟的高清视频。令人难以置信的是,Sora不仅可以准确把握用户文本中的复杂意思,并且还能分拆出不同的元素,将其转换为有具体创意构思的视频内容,看起来就像是专业导演、摄像和剪辑的作品。

来自Sora生成视频截图

一位戴着墨镜、穿着皮衣的时尚女子走在雨后夜晚的东京市区街道上,抹了鲜艳唇彩的唇角微微翘起,即便戴着墨镜也能看到她的微笑,地面的积水映出了她的身影和灯红酒绿的霓虹灯;热闹非凡的唐人街正在进行舞龙表演,熙熙攘攘的人群目光都聚焦在跃动的彩龙身上,整个环境的喜庆氛围仿佛令人身临其境。

与此前的AI视频存在明显塑料感不同,此次Sora制作的视频在逼真度和艺术感方面有着显著差别:微微卷曲的人物头发,女人脸上的黑痣粉刺,地面积水倒映的霓虹光影,街头商贩摆卖的诸多食品,天空飘落的樱花细雪,细节的精细度几乎已经做到了以假乱真。

来自Sora生成视频截图

更令人惊讶的是,Sora视频在构图、色彩、创意和运镜方面,都呈现出明显的电影风格,无论是一镜到底还是多机位都可以无缝切换,甚至还有“演员”的表情神态,这是此前的文生视频产品所不具备的。OpenAI一出手就将整个AI视频行业提升了一个级别。

虽然Sora制作的视频还没有到完美的地步,仔细看还能看出“穿帮”之处,人物吃过的饼干甚至会完好无损,但在影像画质上已经较此前的AI视频有了质的飞跃,甚至有了电影的质感。而且,仅仅根据一段抽象的文字就能制作类电影的多镜头视频,这种语义理解和镜头运用能力更是接近了人类导演、摄像与剪辑的水平。显然,视频领域的ChatGPT时刻已经到来。

三、AI进化速度令人震惊

Sora发布之后,网络一片惊叹,几乎抢尽了Gemini的风头。AI的进化速度实在令人震惊。要知道,此时距离OpenAI推出ChatGPT,开启生成式AI时代,仅仅过去了14个月时间。直到去年,我们才刚刚熟悉文本生成图片的产品,而仅仅半年前,MidJourney创作的AI图片里还会出现六指人物。而现在,Sora的视频就已经让所有人开始感受到现实和虚拟的界限模糊。

虽然OpenAI的GPT-4 Turbo此前出现了性能下滑和速度变慢的状况,令人担心生成式AI的增长遭遇了瓶颈;但Sora的发布无疑打消了所有人的担忧。云计算公司Box创始人兼CEO列维(Aaron Levie)在Sora发布之后感慨说,“如果有人还担心AI进化速度会变慢的话,我们又一次看到了完全相反的典范。”

目前Sora只面向邀请的制作者和安全专家开放测试,发现和解决可能的安全问题,还没有宣布正式的公测时间表。毕竟在虚假信息充斥的互联网,DeepFake的道德问题也已经成为了关注焦点,像Sora这样以假乱真的视频一旦被滥用,可能会引发灾难性后果。

在发布Sora的几乎同一时间,OpenAI还完成了一项要约售股交易,并不是融资用于公司用途,而是允许员工向以Thrive Capital牵头的风投机构出售现有股份套现。值得一提的是,作为OpenAI董事会成员,奥特曼自己并不持有公司股票,估值飙升并不能给他带来巨额财富。

此次交易对OpenAI的整体估值达到了800亿美元,较之去年年初的300亿美元飙升了两倍多。按照投融资市场调研公司CB Insights统计,OpenAI已经成为全球估值最高的创业公司之一,仅次于字节跳动和SpaceX。

实际上,此次交易本应在去年11月完成,只是因为奥特曼与董事会的冲突风波才被迫搁置。随着奥特曼重新回到OpenAI CEO职位,投资者再次给这家AI巨头投出了信任票。显然,在Sora正式发布之后,OpenAI的估值还会进一步飙升。

四、巨头出手碾压AGI同行

那么,令人惊艳的文本生视频Sora究竟会带来哪些冲击?

AGI视频同行无疑是遭受最直接冲击的。Sora发布之后,AI视频创业公司Runway CEO瓦伦祖拉(Cristóbal Valenzuela)在X平台(此前的推特)上简单发布了两个字,“Game On.”(竞争开始了)。几个月前,Runway刚刚发布了Gen-2视频模型。而另一家AI视频公司Stability的CEO莫斯塔克(Emad Mostaque)则直接感慨,“奥特曼真是个魔术师。”

Runway创办已有五年时间,在AI视频领域占据着先发优势,已经得到了好莱坞主流片场的使用。去年拿到七项奥斯卡大奖的年度影片《瞬息全宇宙》就使用了Runway来制作AI视频。在《瞬息全宇宙》大获成功之后,Runway新一轮融资估值也水涨船高,达到了15亿美元,是一年之前估值的三倍。

文生视频领域是目前最热的创业领域。过去几个月时间,随着生成式AI热潮涌动,也涌现出了不少文本生视频和图片生视频的创业公司。A16z的AI投资合伙人摩尔(Justin Moore)列出了他所跟踪的20多家文生视频创业团队,其中不乏Pika、Zeroscope这样一度引发网络惊叹的创业新贵。

去年年底,斯坦福华人毕业生创办的Pika视频一度引发了中美互联网的惊叹。得益于AI视频的惊艳表现,这家仅有四人的创业公司,在不到半年时间就完成了超过5500万美元的三轮融资,估值飙升到了2.5亿美元。

但现在,AI巨头OpenAI直接抛出了Sora。无论是视频时长,还是画面精细度,还是细节完整性,或是多镜头拍摄,Sora都远远超越了这些小创业公司的视频,用碾压来形容也并不为过。虽然AI视频领域还有着巨大的提升和增长空间,但这些小公司的未来是否有能力与OpenAI竞争依然是个巨大的疑问。

五、左右好莱坞劳资谈判

不过,Sora影响的不仅是其他AGI视频创业公司的生存空间,更会改变整个好莱坞以及电影、电视、广告、游戏行业的未来游戏规则。

好莱坞使用AI制作图片和视频,并不是什么新鲜事,从CG(电脑动画)、VR到AI,影视娱乐行业一直是高新技术的最先采用者。然而,与其他技术不同,AI工具始终是扎在好莱坞从业人员心中的一根刺。

除了《瞬息全宇宙》使用了Runway的AI视频工具,去年21世纪福克斯已经与IBM沃森合作,用AI工具为关于AI主题的恐怖片《摩根》制作预告片;迪士尼旗下的漫威更完全用AI制作了《秘密入侵》的开头动画。

当时正值好莱坞演员和编剧工会大罢工期间。而生成式AI在影视行业的应用也是双方的争议焦点之一。就在双方谈判的过程中,演员编剧们得知迪士尼漫威新一季的《秘密入侵》已经完全使用AI技术打造开场场景。这一消息让双方的谈判再次搁浅。

为什么影视行业使用AI工具引发这么多的争议?业内人士主要是担心制片方使用现有素材进行AI训练,未来频繁使用AI工具生成内容,这不仅侵犯到了创作者已有作品的版权,没有给他们足够的回报,更会影响到创作者未来的工作机会和空间。

虽然去年编剧和演员们不惜让行业停摆和自己失业,换来了制片方们的暂时让步,对AI工具的使用制定更多的规范。但三年后的下一次劳资谈判,面对性能必然大升级的AI,演员编剧们的处境可能会更加艰难。

六、电影电视TikTok化

随着文生视频模型Sora的惊艳亮相,或许整个好莱坞从业人员都会面临着一个巨大的疑问:按照AI的指数级进化速度,或许不需要再等待多久,AI就可以生成一部完整剧情的短片甚至电影,从剧本到拍摄到表演到后期都可以完全搞定,那么好莱坞的未来会变成什么样子?

拍摄《当她醒来》恐怖电影的好莱坞导演戴夫·克拉克(Dave Clark)已经在使用AI工具制作电影。在他看来,Sora等AI技术带来的并不是威胁,创作者需要去拥抱AI技术,打造此前无法实现或是想象的内容。“这是改变游戏规则的技术。你不应该去担心自己的工作,而应该担心是谁在使用这些工具。”

行业调查公司CVL Economics上个月发布的一项对300位好莱坞行业领袖的调查显示,担忧情绪弥漫在整个好莱坞。36%的受访者表示生成式AI已经减少了他们公司的日常工作技能需求,72%的受访公司都是生成式AI工具的最早采用者。

更为残酷的现实是,75%的受访者承认,生成式AI(工具、软件、模型)已经促使他们业务部门削减与合并工作岗位。这些掌控着好莱坞行业秩序的人们预计,未来三年好莱坞总计会有超过20万人的工作岗位遭受AI冲击,尤其是视觉特效、音效师、画图师等后期工作岗位。

电影《Shovel Buddies》的编剧海勒曼(Jason Hellerman)认为,随着AI工具的逐渐完善,未来制片方当然可能会通过Sora这样的工具生成视频,而不再需要给一个制作团队支付薪酬。AI生成的内容也可能会创造一个全新的类型,但如果任何人都可以用AI制作视频和电影,成为“内容创作者”,这也不可避免会带来专业水准的降低。

他预测,未来每个人都可以生成自己的视频,就像是现在每个人都在手机上拍摄和观看TikTok短视频。习惯了短视频的Z世代年轻人未来会逐渐摒弃电影和电视这样的长内容。也许在AI生成视频的未来,电影和电视也会变成类似TikTok短视频这样的形式。

本文来自微信公众号:新浪科技 (ID:techsina),作者:郑峻

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年2月18日
Next 2024年2月18日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日