Sora会“杀死“剪映吗?

被OpenAI的ChatGPT震撼过一轮的AI大模型行业,又一次被这家公司推出的首个视频生成模型Sora震撼了一把。

参考资料:
《剪映全员信》张楠
《揭秘字节AI版图:调集多位高管参战,数款重磅产品内测》Tech星球
《大厂大模型:久违的一把手工程》晚点LatePost
《“今天,所有VC的会上都在谈Sora”》投中网
《Sora发布后,Pika创始人独家回应钛媒体:很振奋,我们将直接冲》钛媒体

本文来自微信公众号:字母榜(ID:wujicaijing),作者:赵晋杰

Sora的横空出世,对张一鸣来说,亦喜亦忧。

被OpenAI的ChatGPT震撼过一轮的AI大模型行业,又一次被这家公司推出的首个视频生成模型Sora震撼了一把。

不同于Runway、Pika等仅能生成不足10秒,且镜头视角单一、内容高度失真的视频,Sora的视频生成长度不仅突破到了60秒,且能实现单视频的多角度镜头切换,还能最大限度还原现实世界的真实场景。

在ChatGPT上被验证过的模型性能缩放法则(scaling laws),被OpenAI CEO阿尔特曼移植到视频领域后,被证明其“大力出奇迹”的策略仍然有效,即增加模型的大小将继续提高性能。ChatGPT所为人称赞的“智能涌现”特征,再一次出现在Sora身上。

面对来自Sora的“降维打击”,AI视频领域的创业者中,有的如Runway CEO克里斯托瓦尔·巴伦苏埃拉一样,做好了“Game On”的准备,有的如Pika创始人郭文景一样,开始筹备对标Sora的新产品,也有人如Stability AI CEO埃马德·莫斯塔克一样,不由感慨“阿尔特曼真是一个魔术师”,并将Sora视为AI视频界的GPT-3时刻。

但对字节跳动来说,这未必是个好消息,因为 Sora所处的视频生成赛道,正是眼下字节跳动旗下剪映所瞄准的AI创新方向。2月份从抖音转岗剪映后,据界面新闻报道,抖音前CEO张楠即将推出一个AI生图和视频的产品。

正打算在AI生成视频领域大干一番的张楠,还没等到产品落地的那一刻,其内部再创业的计划,便率先遭遇了Sora的当头一击。

OpenAI是张楠决心押注AI再创业的催化剂。2022年OpenAI旗下文生图模型DALL-E 2的发布,让张楠首次直观感受到AI图像生成,给传统内容创作方式所带来的颠覆式变革威力,这既是字节跳动全球CEO梁汝波口中“会产生新的创作平台”的机会,也是促成张楠转岗剪映的原因之一。

生成式AI,还是打开字节跳动增长天花板的一次必要尝试。2023年公开信中,张一鸣提到,字节跳动无法错过AGI(通用人工智能),并指出AGI是抖音、TikTok在全球发现新的增长机遇不可或缺的伙伴,“它可以解决字节跳动的第二曲线增长困境。”

2019年剪映的出现,帮助抖音内容生态从偏向PGC(专业机构生产内容)转向UGC(用户生产内容),大大降低用户创作门槛。如今,随着平台内容生态转向PUGC融合态,其对用户创作视频的成本和整体质量,又提出了新的要求。AI生成视频产品的出现,则对尽可能拉低每一个普通人创作视频的门槛,提供了一种现实可能性,抖音乃至TikTok,都有望借此在内容创作者数量上迎来新的爆发。

值得一提的是,AI视频生成更是一个颇具前景的创业赛道。截至2023年底,该赛道已经涌现出一批独角兽公司:Midjourney估值100亿美元,Stability AI估值40亿美元,Runway估值15亿美元。年初爆火出圈的新贵Pika,成立时间不足一年,其估值已经达到2.5亿美元。

但在Sora的突然袭击之下,留给张一鸣和张楠孵化下一个AI视频生成独角兽的时间,越发紧张了。

Sora亮相之前,字节内部也在研发AI生成视频产品。

1月份,字节跳动研究人员在arXiv上发表了一篇论文,其中介绍了字节正在开发的一款文本生成视频的模型,被命名为 MagicVideo-V2,其通过集成多个模块,包括文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块,实现从文字到视频的自动化生成。

MagicVideo-V2想要解决的问题,是Runway、Pika等在生成视频中所表现出来的保真度不高、运动不自然、分辨率不高、风格不多样等。

字节旗下产品剪映原有的“图文成片”功能模块,在进行文生视频转换过程中,同样面临上述难题的拷问。

在等待MagicVideo-V2完善研发,从demo走向量产上线之际,张楠在过去一个月多的用户访谈中,收集到了更多来自一线创作者对AI生成视频产品的不满和期待,其中之一就包括部分创作者“为了更好表达自己的想法,几乎无法用一个产品完成所有的创作,要横跨几个产品之间,用复杂的编辑和交互流程,才能完成他们的表达。”

去年8月,UP主数字生命卡兹克制作的一条爆款视频《流浪地球3预告片》,便先后运用了MidJourney和Runway等多款产品,且经历了长达5天的后期剪辑拼接。

造成UP主数字生命卡兹克创作困难的主要原因,便出在AI软件不够智能和便捷上。Sora出现之前,业内文生视频的默认方式是,只能输出单一、且往往是静止视角的短视频片段,画面背景还多呈现赛博朋克风。

Sora出现之后,文生视频领域的旧识被打破,不管多么复杂的视角、场景切换,都只用通过单一提示词便可生成,在兼顾便捷性的同时,最大限度保证了生成内容与真实物理世界的相关性。

Sora提示词示例 图源:官网截图

字节和张楠规划中AI视频所应具备的更高保真度生成效果、更清晰生成画面、更顺畅自然的逻辑理解能力等,率先被Sora一一实现。

需要注意的是,尚未对外开放测试的Sora,眼下还存在诸多不完善之处,按其官方说法,“仍然处于世界模型研究应用的初期阶段。”

Meta首席科学家杨立昆便直接质疑Sora:“仅凭能够根据提示生成逼真的视频,并不能说明系统真正理解了物理世界。”

OpenAI在官网介绍中也提醒道,Sora可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系,还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。这些缺陷可能导致Sora生成一些不合逻辑的视频,如一个人在跑步机上跑错方向。

这些尚未解决的Bug,是OpenAI决定暂未全面开放Sora的原因之一。如今,OpenAI正选取部分用户展开内测,以评估关键领域的潜在危害或风险,以期获得宝贵反馈,进而推动模型进步。

ChatGPT发布后,外界开始意识到AGI时代有了实现的可能性,Sora等视频生成模型,无疑是推动AGI到来的重要加速器。

OpenAI直接在官网上写道:“Sora为能够理解和模拟真实世界的模型提供了基础,我们相信这一能力将是实现AGI的重要里程碑。”

想要借助视频生成模型,推动AGI带来的不止OpenAI一家公司。去年12月,Runway提出要开发通用世界模型(General World Model),用旗下的视频生成Gen-2来模拟整个世界,“我们相信,人工智能的下一个重大进步将来自理解视觉世界及其动态的系统,这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。”

理解现实世界的物理法则,成为通往AGI的必经之路。360创始人周鸿祎在点评Sora时直言,一旦AI接上摄像头,把现存所有视频都看一遍,其对世界的理解能力将远远超过文字学习。“这就离AGI真的不远了,不是10年20年的问题,可能一两年很快就可以实现。”

正是在AGI相关概念刺激之下,AI生图和视频领域的垂类大模型公司,估值迎来飙升,出现了Midjourney、Stability AI、Runway等一批明星独角兽创业公司。

具体到字节跳动的业务层面,图片/视频生成还能帮助提效字节的商业化需求,如帮助字节广告客户低成本、便捷地制作视频。有字节人士告诉晚点PostLate,字节广告客户投放总成本里有10%-20%为视频制作成本,从去年开始,字节已在开发一些相关产品帮广告客户压缩这部分投入。

尽管在推出类似文生视频产品方面落后一步,但对张楠来说,反过来也迎来了一个摸着Sora过河的机会。

ChatGPT亮相之前,算法方面的短板,一度是行业研发对话大模型的主要障碍之一。人工智能专家丁磊博士解释道,部分大模型创业公司“还不是那么会训练大模型……如果训练方法错的话,你有再多的GPU也没用。”

在追赶Sora过程中,Pika创始人郭文景提到,目前生成式视频发展的一个重要限制是算法的成熟度,“语言对话模型大家已经知道大概的方法,算法相对比较成熟了。但视频之前还没有很好的算法。”

Sora的发布,无疑再次给行业提供了一个行之有效的解题思路,也给郭文景和张楠这样的同领域创业者,提供了一条成熟的算法借鉴路线。

随着Sora正式亮相,在上一波语言对话模型上落后的字节,在视频领域再次陷入被动追赶窘态。

2022年11月ChatGPT发布之后,百度、阿里等国内大厂相继在去年三四月份推出自研大模型文心一言和通义千问,但直到8月份,字节才对外亮相了云雀大模型。

动作迟缓的后果之一是,当文心一言月活已经破亿后,字节同类产品“豆包”的月活,还不足千万。

在1月底的新一期All Hands(员工面对面)上,梁汝波着重以AI进展缓慢说明公司正在变得迟钝的现况,称 “公司层面的半年度技术回顾,直到2023年才开始考虑GPT,而业内做得比较好的大模型创业公司,都是在2018年至2021年创立的。”

字节关注大模型并不算晚。据晚点LatePost报道,2020年6月OpenAI发布GPT-3后,字节曾训练了一个数十亿参数的生成式语言大模型,由于参数规模有限,该模型生成能力一般,字节当时看不到它的商业化可能性,“ROI(投资回报率) 算不过来”,这次探索便浅尝辄止。

如今选派张楠这样一员大将用AI改造剪映,被外界视为是字节内部希望提速AI发展的一个信号。

但在完成内部调兵遣将之后,留给张楠的挑战不只是追赶时间上的紧迫,还有外部芯片断供所带来的算力荒难题。

去年10月份,英伟达旗下A100、A800、H100、H800和L40S等五种GPU芯片禁令正式生效。对于一众国内大模型厂商而言,英伟达芯片的断供,在客观上成为其追赶ChatGPT乃至GPT-4的最大阻力。

在缩放法则(scaling laws)指导下,阿尔特曼提出了芯片需求每三四个月就要翻一番的大模型时代“摩尔定律”。这无疑再次拉高着张楠追赶Sora的门槛。

“对于国内厂商而言,这种大力出奇迹的模式跑通之后,硅谷会进入更为狂热的算力军备竞赛。字节们的算力短板会进一步放大。”招商证券研究员刘枋说道。

参考资料:

《剪映全员信》张楠

《揭秘字节AI版图:调集多位高管参战,数款重磅产品内测》Tech星球

《大厂大模型:久违的一把手工程》晚点LatePost

《“今天,所有VC的会上都在谈Sora”》投中网

《Sora发布后,Pika创始人独家回应钛媒体:很振奋,我们将直接冲》钛媒体

本文来自微信公众号:字母榜(ID:wujicaijing),作者:赵晋杰

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年2月19日
Next 2024年2月19日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日