Sora证明马斯克是对的,但特斯拉和人类可能都输了

当然,这不意味着特斯拉早在一年前就掌握了。理解和生成一个真实的场景或者世界,视频只是从某一个视角观察这个场景的一段时空。

OpenAI。

计算资源会直接影响生成的视频质量,从左往右分别是。

而就像特斯拉把这种生成能力用于训练车辆,Sora。只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。

Sora 推出,马斯克可能是心情最复杂的一个。不仅因为其本人与 OpenAI 早年的纠葛,更因为 Sora 实现的其实是特斯拉早几年间一直在探索的方向。

2 月 18 日,马斯克在科技主播 @Dr.KnowItAll 一条主题为“OpenAI 的重磅炸弹证实了特斯拉的理论”的视频下留言,称“特斯拉已经能够用精确物理原理制作真实世界视频大约一年了”。

随后他在 X 上转发了一条 2023 年的视频,内容是特斯拉自动驾驶总监 Ashok Elluswamy 向外界介绍特斯拉如何用 AI 模拟真实世界驾驶。视频中,AI 同时生成了七个不同角度的驾驶视频,同时只需要输入“直行”或者“变道”这样的指令,就能让这七路视频同步变化。

当然,这不意味着特斯拉早在一年前就掌握了 Sora 的技术,毕竟特斯拉的生成技术只用于模拟车辆行驶,而 Sora 能够处理的环境、场景、Prompt、物理规律等信息更加复杂,二者在难度上不可同日而语。

特斯拉 AI 和 Sora 训练的思路是一致的:并不是训练 AI 如何生成视频,而是训练 AI 理解和生成一个真实的场景或者世界,视频只是从某一个视角观察这个场景的一段时空。这是两家在现有业务上完全不同的公司,以彼此不同的方法来感知真实世界,而他们共同希望通向的,都是 AGI(通用人工智能),甚至更具体一些,就是具身智能和智能体。

理解这个观点的核心,是理解 OpenAI 为 Sora 赋予的使命,并不只是替代视频生成的创作者,而是将视频生成作为帮助 AI 理解真实世界的“模拟器”。如果说特斯拉数以百万计的车辆仍然需要用“肉身”感受这个世界,那么 Sora 则是单纯依靠数据的输入,建立起对世界的认知。

OpenAI 官网上,关于 Sora 的这篇研究论文名为《把视频生成模型作为世界模拟器》。请注意“世界模拟器”(world simulators)这个关键词,它是比生成视频更关键的核心所在。

其实,早在特斯拉发布 FSD V12 的时候,这家以汽车为主要消费产品的人工智能公司,就已经展示了类似的能力。

如何理解呢?首先,在 FSD V12 上,工程师删除了超过 30 万行定义驾驶规则的代码,系统将从被“投喂”的驾驶视频中,学习如何应对真实的驾驶场景,而不是像过往那样,按照写好的规则,在某个特定场景下执行某一个具体的命令。

当然,和作为“生成式模型”的 Sora 不同,FSD 的目标是实现自动驾驶,所以它并不需要真正生成一个具体的视频。你可以想象成一个人(或者智能体)正在进行“防御性驾驶”,基于过往经验,可以对周围环境中交通参与者的下一步移动趋势做出判断。这个判断存在头脑里就行了,不需要真正把它画在纸上。因此,特斯拉的 FSD 也不需要把对未来的想象,生成为一个真实视频,并呈现在车辆的某一个屏幕上。

所以,现在有 OpenAI 和特斯拉两家完全不同的公司,用截然不同的方式和路径,实现“通过视频生成,让 AI 理解物理世界”这个相同的目标。

简单了解一下 Sora 的运行逻辑:OpenAI 表示,Sora 结合了 Transformer 和 Diffusion 两个过去几年最重要的模型。ChatGPT、Gemini、LLaMA 等语言模式都是基于 Transformer 模型,它对词语进行标记,并生成下一个单词;Diffusion 模型则是“文生图”的代表。

如果从“理解世界”的角度来审视 Sora,那么某一帧图像的画质、画面关系绝不是模型质量高低的评判标准,甚至官网释出的 60 秒一镜到底视频也不是最核心的部分。重要的是这个生成的视频可以被剪辑——在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都保持着高度的“一致性”。这才是 Sora 遥遥领先并接近真实的地方。

Sora 生成的视频,在不同机位下呈现出的“一致性”| OpenAI 官网截图

这一点和特斯拉在 FSD 上采取“纯视觉”方案可以结合理解。简单来说,99% 的车企或者智驾团队都会在车辆上保留激光雷达,通过激光束的发射和接收,辅助计算周围物体和车辆间的距离关系。但马斯克不仅删除了 30 万行代码,还移除了雷达,只依靠高清摄像头采集和神经网络学习来判断距离关系。

无论是对特斯拉,还是对 OpenAI,这都是巨大的挑战。毕竟输入的画面是 2D 的,但输出的结果(无论是驾驶指令还是视频)都需要基于对 3D 世界的深刻理解。

规模和质量是训练模型的核心。特斯拉的数据来源于真实道路上,搭载了传感器的车辆;而 OpenAI 的大量数据,从目前的公开信息来看,来源于网络。在质量的维度,在《马斯克传》里,作者艾萨克森写道特斯拉通过和 Uber 合作,获取“五星司机”的素材训练 FSD;而从规模出发,奥特曼最近希望筹集万亿规模的资金,就是重注算力和规模的具体体现。

计算资源会直接影响生成的视频质量,从左往右分别是 1 倍资源、4 倍资源、16 倍资源的生成效果 | 视频播客截图

最后,回到一开始的那个问题,为什么我们会认为 Sora 和 FSD v12 是相似的?Sora 和 OpenAI 未来的想象空间又是什么呢?它们和 AGI 又有什么关系?

在马斯克看来,当人工智能可以真正解决一个问题(物理、数学、化学等等)的时候,AGI 就到来了。不过还有另外一个理解维度,那就是具身智能。毕竟现实世界里,并不是只有数学公式和文字规则,拥有一定的智商的小猫小狗也可以依靠运动真实地和物理世界进行互动。

这点对于过去只能输入二维信息的 AI 来说很难做到。这也是为什么马斯克看到 Sora 后在 X 上评价是“GG Humans”,在他看来 Sora 今天做到的,已经打破了过去的次元壁,而能理解真实世界并继续学习,AI 也就有了更进一步影响真实世界的能力。

而就像特斯拉把这种生成能力用于训练车辆,Sora 的价值也不仅仅是生成一个难以让人区分真假的视频,用作影视创作者的生产力工具(尽管这是一个非常困难且刚需的场景)。就像周鸿祎所说,“Sora 只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”

本文来自微信公众号:极客公园(ID:geekpark),作者:曹思颀,编辑:郑玄

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月19日
下一篇 2024年2月19日

相关推荐

  • 波士顿动力转向纯电机器人,电动为什么是机器人唯一方向?

    几天前,波士顿动力在网上宣布,Atlas。

    一、新的:电动“Atlas”

    “Atlas。”

    但波士顿动力并非是第一家推出电动机器人的公司。的说法,Atlas“肯定需要是一个通用机器人”,但是在通用性方面还有很多工作要做,以便人形机器人能够拾取一千个不同部件中的任何一个,都能合理地处理它们,“这种普遍性尚未得到证实。

    为了向这款推动人形机器人极限的机器人致敬,波士顿动力发了一段。

    未来科技 10小时前
  • 小米造了车,红旗要造手机

    4月18日,中国一汽在微信公众号发布消息称,在当日举行的中国一汽第五届科技大会上,中国一汽与亿咖通科技签署了智能座舱战略合作协议,除了在汽车智能座舱领域展开合作外,双方还将共同打造红旗品牌高端手机。

    抢夺智能生态大单

    从一汽和亿咖通将“共同打造红旗智能座舱和红旗OS,并打造红旗品牌高端手机”的合作模式来看,在亿咖已有的合作案例中,与极星汽车的合作很可能成为与红旗合作的模板。

    未来科技 1天前
  • 号称超越GPT-4的大模型们,有多少靠的是“抄袭”

    让模型走向同质化的“数据捷径”

    “如果所有人都用一样的数据,你又怎么会比其他人好呢。

    大家都知道,在大模型训练过程中,数据至关重要,并且在不同阶段的侧重点也有所差异。

    在训练基座模型时,数据追求的是“量”,对算力要求也是极高,它决定了大模型对事物的基本“理解能力”。

    如果按这个标准,现有的高质量文字数据和图像数据加起来体量根本不够,还差。

    未来科技 1天前
  • 中国互联网三十周年,那些陨落的流星

    2015年,一个叫戴威的25岁北大青年,受Uber共享春风的吹拂,买了20串羊肉串,拜托中文系师弟写了一封振奋人心的公开信《这2000名北大人要干一票大的》。或将转型SNS交友网站》中关村在线
    《1286天,熊猫直播从生到死》澎湃新闻
    《天涯创始人首度回应关停:不会放弃,用户数据不会丢》新黄河
    《西祠胡同终成“死胡同”,论坛兴衰史再添一员》三易生活
    《十年前,那些我们曾迷恋过的网站》电脑报
    《中国互联网30年,网红的前世今生》新华报业网

    本文来自微信公众号:镜相工作室(ID:shangyejingxiang),作者:郑思危,编辑:周近屿

    未来科技 1天前
  • Llama 3发布,亮点在于“小”模型

    GPT-3.5,而且需要的算力低、反应快,甚至可以在手机、电脑上本地运行,“希望大家继承这个趋势,训练和发布用更长时间训练更小的模型。架构中,要提升大模型的效果,需要按照特定比例提高训练大模型的数据量、模型本身的参数以及算力。

    想要降低成本,最直接的方法是训练参数更小的模型,让用户的手机、电脑直接在本地运行,分担平台的压力。

    怎么让更小的模型有更好的效果,成了大模型公司们的竞争焦点。

    未来科技 1天前
  • 谷歌全面整合AI力量背后:DeepMind浮沉史

    DeepMind从2016年到2019年的营收与亏损,图片来源:VentureBeat

    2019年初,三位DeepMind人工智能工程师离职,比如著名安全工程师本·劳里(Ben。

    不过知情人士称,哈萨比斯在2021年告诉DeepMind员工,在谷歌CEO皮查伊承诺提供更多资金后,在DeepMind高层被称作“马里奥计划”的分离大业就此搁置。

    未来科技 1天前
  • 拍下苹果Vision Pro最美X光图的公司,“iPod之父”也有投资

    Vision。

    Meta。

    在。分析看来,两个系列产品不分高低,其工程设计差异更多地反映了其设计理念和定位不同:

    一个是要挑战体验和设计上的极致,另一个是要在保持一定体验前提下,尽可能地让更多人用得起。

    苹果三代。光视觉”,产品设计的利器

    一看到这个扫描仪,我就说“我最快能什么时候给你们投资。

    Fadell。

    而在。

    甚至在。

    未来科技 1天前
  • 大中型上市银行加码金融大模型研发,场景广泛应用尚待时日

    竞逐金融大模型

    年报显示,工商银行在2023年度建立了行业内首个全面自主研发且具有千亿参数级别的AI大模型技术体系,并在多元金融业务场景中实现了创新性应用。

    具体来看,工商银行、建设银行、农业银行、中国银行、交通银行、邮储银行在2023年的科技投入分别为272.46亿元、250.24亿元、248.50亿元、223.97亿元、120.27亿元和112.78亿元,同比分别增长3.90%、7.45%、7.06%、3.97%、3.41%和5.88%。

    未来科技 1天前
  • 姚颂:穿过创业与投资的旋转门

    一、穿过创业与投资的旋转门 各位老师、同学们晚上好,很高兴再次回到校园与大家分享我的创业经历,最近大家比较关注的问题是未来应该做什么,创业方向是什么,对航天领域也比较感兴趣,所以我…

    未来科技 1天前
  • AI企业疯狂“卷”文本

    月之暗面公司相关负责人向记者强调,与其他公司的产品不同,Kimi的长文本是无损压缩技术的长上下文,RAG是有损压缩技术。

    他也提醒说,长文本只是大模型的一个技术特色,除了长文本之外,大模型还有高效训练、多模态、模型压缩、安全伦理等多方面的问题需要研究,“今天大家盯着长文本是好事,但也不能忘了其他,做好大模型需要多面开花。

    未来科技 1天前