OpenAI再次举起屠刀,以及几个推论

2月16日凌晨,在没有任何预兆和消息透露的情况下,OpenAI 突然发布了自己的首个文生视频模型:Sora,大幅刷新行业多个指标,重新定义了 AI 文生视频在现阶段的技术极限,颠覆了生成式 AI 在视频领域的全球市场格局。

Sora 使用 Transformer 架构,建立在 DALL·E 3 和 GPT 模型之上,可以生成长达一分钟的有运动、多机位视频。相比业界水平,Sora 将视频生成的时长一次性提升了 15 倍,直接迈过了市面上所有短视频的时长要求。

同时,Sora 也带有世界模型的特质。世界模型不是 AI 视频生成的必须要素,却是这个领域较为高端的一个研究方向。所谓世界模型,简单点说,是要对真实的物理世界进行建模,让机器像人类一样,对世界有一个全面而准确的认知。视频与文字不同,大多数是在描绘一个主体,在一个真实或虚构的物理世界中的动作,因此,世界模型会让 AI 视频生成更流畅、更符合逻辑,降低视频模型的训练成本,提升训练效率。同时,世界模型也为生成式 AI 真正进入自动驾驶行业铺好了路。

此次,Sora 的世界模型,已经能帮助它还原一辆越野车在山区小路上的行驶情况,在视频中添加逼近真实的倾斜和颠簸感。

图片来自。

2月16日凌晨,在没有任何预兆和消息透露的情况下,OpenAI 突然发布了自己的首个文生视频模型:Sora,大幅刷新行业多个指标,重新定义了 AI 文生视频在现阶段的技术极限,颠覆了生成式 AI 在视频领域的全球市场格局。

Sora 使用 Transformer 架构,建立在 DALL·E 3 和 GPT 模型之上,可以生成长达一分钟的有运动、多机位视频。相比业界水平,Sora 将视频生成的时长一次性提升了 15 倍,直接迈过了市面上所有短视频的时长要求。

同时,Sora 也带有世界模型的特质。世界模型不是 AI 视频生成的必须要素,却是这个领域较为高端的一个研究方向。所谓世界模型,简单点说,是要对真实的物理世界进行建模,让机器像人类一样,对世界有一个全面而准确的认知。视频与文字不同,大多数是在描绘一个主体,在一个真实或虚构的物理世界中的动作,因此,世界模型会让 AI 视频生成更流畅、更符合逻辑,降低视频模型的训练成本,提升训练效率。同时,世界模型也为生成式 AI 真正进入自动驾驶行业铺好了路。

此次,Sora 的世界模型,已经能帮助它还原一辆越野车在山区小路上的行驶情况,在视频中添加逼近真实的倾斜和颠簸感。

图片来自 OpenAI 官网,为 Sora 生成的视频,部分截取

但 Sora 的世界模型仍有非常多的问题,比如,一块饼干被咬过之后,却没有留下咬痕。OpenAI 非常实在,把这些问题都写在了官网上。

目前,Sora 仅开放给了少部分人进行内测,据称是一些视觉艺术家、设计师和电影制作人。同时,OpenAI 内部仍在进行模型伦理侧的对抗性测试,比如错误信息、仇恨内容、偏见内容,至于色情暴力,则会在文本输入时,就被拒绝掉。

对于 Sora,今天的我们,必须注意到几个显而易见的推论:

  1. OpenAI 一拳打在了所有人的肝上:全球的 AI 视频生成赛道投资逻辑,乃至相关企业的生存逻辑,在此刻都已经改变了。未来一个季度内,如果该企业的视频生成能力,仍然停留在 4s,或导致直接出局;

  2. AI 已经快速迈过文生文、Chatbot时期,大步进军视频生成领域:当下最火的短视频、短剧,将迎接 AI 的到来;那些卡在瓶颈上的领域,比如自动驾驶、智慧城市,或将迎来突破。

  3. 不要过度神话 Sora 或其他 AI 视频生成工具,当下仍有巨量的技术、产品、商业问题等待解决;但也不要低估 AI 技术的进步速度,那个凝固在未来时光中、让人看不清面貌的 AGI(通用人工智能),正在向我们迈步。

图片来自 OpenAI 官网,为 Sora 生成的视频,部分截取

Sora 到底牛在哪?

就在年前,2024年 1 月 27 日,虎嗅举办了一场关于 AI 视频生成的开放沙龙,会上有一个有趣的互动:AI 视频生成多快迎来 Midjourney 时刻?

选项分别是半年内、一年内、1-2年或更长。

在现场,每个选项都各有拥趸,但 OpenAI 今日公布了准确答案:20 天。

AI 视频生成真正的难点是在文生视频,而非图生视频、视频生视频。各中奥妙在于,文生视频,需要根据指令,从文字解码出视频的时空逻辑,同时保证在这一逻辑下,画面中所有物体的运动、变化,符合要求,符合现实世界规律。而图生视频、视频生视频,皆有“照猫画虎”的意味,因此反倒要简单一些。这也是为什么,市面上的 AI 视频生成,始终停留在 2-4s 的时长范围内——一旦超过了这个时长,视频的可控性和质量都将大大下降。

很多视频生成,更像是个固定人物配上动态背景,画面很单调,几乎没什么动作,这也是因为从文字到视频,在时空逻辑推理层面的局限。同时,很多企业更关注所谓 AI 视频生成的产品化、商业化,聚焦于推出一些基于模板,快速用于营销的视频生成工具,在世界模型层面有所欠缺,一旦视频时长增加,模型不能理解真实的物理运动和相互作用逻辑,变得十分无力。

OpenAI 的 Sora ,就是在文生视频,增加视频时长,建立世界模型,这几大最主要的难点上,走出了突破性的一步。但这并不代表 Sora 没有问题,可以以假乱真,当下最违和的问题在于凭空生成:三只小狗在嬉闹,凭空出现了第四只小狗、第五只小狗;一个人捡起一大块塑料片,凭空出现一把塑料椅子。

另外一类主要问题,在于 Sora 的世界模型仍然不够完善。比如一个男人倒着跑跑步机,且跑步动作并不连贯自然。或者一个篮球撞在篮筐上,发出符合物理规律的弹跳,然而下一秒就撞破了篮网,发生爆炸。一群考古学家,在沙漠里挖出一个塑料椅子,煞有介事的清理灰尘,而椅子本身则在诡异的漂浮和变形。

男人倒着跑跑步机,图片来自 OpenAI 官网,为 Sora 生成的视频,部分截取

世界模型一直处于一个相当狭窄的研究领域,这概念研究难度大,目标太高,带有相当的学术色彩,因此一度参与者寥寥。

值得一提的是,Meta 首席人工智能科学家、图灵奖得主杨立昆(Yann LeCun)本人,尽管在 Meta 的生成式 AI 落后问题上,正承受着巨大的压力,但其却是世界模型构想的主要提出者。

杨立昆一向对生成式 AI 的幻觉和一系列反智行为嗤之以鼻,并认为 AI 只有真正理解物理世界,才具备真正的价值,断言 GPT 模型活不过五年。他在 2023 年 6 月基于自己的构想,推出了 I-JEPA 模型,用真实世界的背景知识,补充图像缺失的片段,但这仍然是个技术研究层面的概念。

2023 年 12 月,AI 视频生成的领头羊之一 Runway,官宣下场通用世界模型,高调发布系列招聘,宣称要用生成式 AI 来模拟整个世界,以应对 Pika 的步步紧逼。

这是一个信号,或许在杨立昆看来,局面一度在向着好的方向发展:自己的研究方向得到认同,拖累 Meta 的谣言不攻自破。

可这快乐还没持续三个月,啪,没了。

Sora 革了谁的命?

Sora 发布前,有很多烟雾弹式的讯息更新,比如:OpenAI 组建研究儿童安全的新团队、OpenAI 正准备推出 GPT-4.5-turbo,但真正的“杀手级更新”被隐藏的很好,这也导致像 Pika、Runway 一样的明星创业公司,措手不及。何况 OpenAI 的联合创始人 Andrej Karpathy 本来就是 Pika 的资方之一。

源码资本副总裁李露霖在虎嗅主办的沙龙上表示,短视频是当前硬件基础设施Mass Market渗透率最高的形态。

有数据透露,目前国内短视频用户的规模在10亿以上,有数据称抖音2022年年收入700亿美金以上,快手也在900亿人民币以上。不过面对这样一个市场,在 Sora 发布前,所有的视频生成工具,均没有达到可付诸商业或工业化生产的水平。

有专家对虎嗅表示,大厂目前对于AI视频生成的态度相当模棱两可。根本问题在于,现在的人工视频生成效果更好,且成本也能接受,AI 视频生成,在此前没有大家想象的那么颠覆,所以整体策略偏向“防御”,而非“进攻”。

这一切,既麻痹了像 Pika、Runway 一样的创业公司,让他们以为机会已至、前景够好;也让这些公司及其投资人,低估了视频生成赛道的竞争烈度,以为窗口期仍然足够长。

所有的 AI 视频生成公司,在这种麻痹里,都陷入了同质化竞争:过多关注更高画质、更高成功率、更低成本,而非更大时长以及世界模型。

Pika、Runway、Meta,大体都是如此,在时长不超过 4s 的范围内,可以做到画质极度精美,但物体本身的运动幅度极低,且会变形。

国内的字节跳动,反倒是其中的另类。在视频领域,字节的嗅觉更加敏锐。2023 年 11 月,字节跳动发布 PixelDance,通过上一个视频片段尾帧,为下一个视频片段头帧提供指导的思路,在视频时长上有所突破,但截止到发稿时间,仍然没有开放用户测试。

PixelDance 官网视频案例

接下来在资本市场的影响,很可能是隐性的。Pika 创始团队曾被打上“学霸”、“完美”等标签,并在 2023 年 11 月底完成 5500 万美元融资,可下一轮的资本将在怎样的时间点,以什么样的数额进入?Runway 2023 年 5 月完成 1.41 亿美元融资,但主攻世界模型的团队还在组建中,下一步融资的节奏也存疑。

如果说 Pika、Runway 身上还有布局价值,那么对于国内 AI 出海的企业而言,形式将变得更加艰难。换句话说,从移动时代迁移至今的、基于场景和产品能力,快速上线一个插件的商业模式,正在海外 AI 市场失效——

因为像 OpenAI 这样的企业,正屹立在市场上。他们几乎重现了当年 Oracle 市场领导力,一步快,步步快,降维打击所有竞争者。对于所有做模式、赶风口的机会主义创始人而言,巨头若要杀死你,恐怕也只会发生在一夜之间。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月16日
下一篇 2024年2月16日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日