Sora到底懂不懂物理世界?

田渊栋:学习物理需要主动学习或者策略强化学习

针对。//twitter.com/tydsh/status/1759293967420805473

田渊栋还表示,如果想要学习精确的物理,他敢打赌需要主动学习或者策略强化学习(无论如何称呼它)来探索物理的精细结构(例如物体之间的相互作用、硬接触)。//twitter.com/MikeRiverso/status/1759271107373219888

Sora。

最近几天,OpenAI 发布的视频生成模型 Sora 成了全世界关注的焦点。

和以往只能生成几秒钟视频的模型不同,Sora 把生成视频的长度一下子拉长到 60 秒。而且,它不仅能了解用户在 prompt 中提出的要求,还能 get 到人、物在物理世界中的存在方式。

以经典的“海盗船在咖啡杯中缠斗”为例。为了让生成效果看起来逼真,Sora 需要克服以下几个物理难点:  

  • 规模和比例的适应:将海盗船缩小到能够在咖啡杯中缠斗的尺寸,同时保持它们的细节和结构。这是一个挑战,AI 需要理解和调整这些对象在现实生活中的相对尺寸,使得场景在视觉上显得合理;

  • 流体动力学:咖啡杯中的液体会对海盗船的运动产生影响。AI 模型需要模拟液体动力学的效果,包括波浪、溅水和船只移动时液体的流动,这在计算上是复杂的;

  • 光线和阴影的处理:为了使场景看起来真实,AI 需要精确地模拟光线如何照射在这个小型场景中,包括咖啡的反光、船只的阴影,以及可能的透光效果;

  • 动画和运动的真实性:海盗船的运动需要符合真实世界的物理规律,即使它们被缩小到咖啡杯中。这意味着 AI 需要考虑到重力、浮力、碰撞以及船体结构在动态环境中的行为。

  • ……    

虽然生成效果还有些瑕疵,但我们能明显感觉到,Sora 似乎是懂一些“物理”的。英伟达高级研究科学家 Jim Fan 甚至断言,“Sora 是一个数据驱动的物理引擎”,“是一个可学习的模拟器,或‘世界模型’”。

部分研究者同意这样的观点,但也有不少人反对。

Yann LeCun:生成视频的过程与基于世界模型的因果预测完全不同

图灵奖得主 Yann LeCun 率先亮明观点。在他看来,仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。

他接着讲道,模型生成逼真视频的空间非常大,视频生成系统只需要产生一个合理的示例就算成功。不过对于一个真实视频而言,其合理的后续延续空间却非常小,生成这些延续的代表性片段,特别是在特定行动条件下,任务难度更大。此外生成视频的后续内容不仅成本高昂,实际上也毫无意义。

因此,Yann LeCun 认为,更理想的做法是生成视频后续内容的抽象表达,并消除与我们可能所采取的动作无关的场景中的细节。

当然,他借此又 PR 了一波 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构),认为上述做法正是它的核心思想。JEPA 不是生成式的,而是在表示空间中进行预测。与重建像素的生成式架构(如变分自编码器)、掩码自编码器、去噪自编码器相比,联合嵌入架构(如 Meta 前几天推出的 AI 视频模型 V-JEPA)可以产生更优秀的视觉输入表达。

图源:https://twitter.com/ylecun/status/1758740106955952191

François Chollet:只让 AI 看视频学不成世界模型

Keras 之父 François Chollet 则阐述了更细致的观点。他认为,像 Sora 这样的视频生成模型确实嵌入了“物理模型”,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?

Chollet 强调,这些问题至关重要,因为它们决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。

Chollet 通过海盗船在咖啡杯中缠斗的例子,讨论了模型能否准确反映水的行为等物理现象,或者仅仅是创造了一种幻想拼贴。这里,他指出模型目前更倾向于后者,即依赖于数据插值和潜空间拼贴来生成图像,而不是真实的物理模拟。有人将这种行为类比为人类做梦,认为 Sora 其实只是达到了人类做梦的水平,但是逻辑能力依然不行。

Sora 生成的人类考古视频,椅子在画面中凭空出现,而且不受重力影响漂浮在空中。

Chollet 指出,通过机器学习模型拟合大量数据点后形成的高维曲线(大曲线)在预测物理世界方面是存在局限的。在特定条件下,大数据驱动的模型能够有效捕捉和模拟现实世界的某些复杂动态,比如预测天气、模拟风洞实验等。但这种方法在理解和泛化到新情况时存在局限。模型的预测能力依赖于其训练数据的范围和质量,对于那些超出训练数据分布的新情况,模型可能无法准确预测。

所以,Chollet 认为,不能简单地通过拟合大量数据(如游戏引擎渲染的图像或视频)来期望得到一个能够泛化到现实世界所有可能情况的模型。这是因为现实世界的复杂性和多样性远超过任何模型能够通过有限数据学习到的。

田渊栋:学习物理需要主动学习或者策略强化学习

针对 Jim Fan 的观点,一些研究者提出了更激进的反驳,认为 Sora 并不是学到了物理,只是看起来像是学到了罢了,就像几年前的烟雾模拟一样。也有人觉得,Sora 不过是对 2D 像素的操纵。

图源:https://twitter.com/IntuitMachine/status/1758845715709632873

当然,Jim Fan 对“Sora 没有在学习物理,而只是操纵 2D 像素”这一说法进行了一系列反驳。他认为,这种观点忽略了模型在处理复杂数据时所展现出的深层次能力。就像批评 GPT-4 不是学习编码,只是随机挑选字符串一样,这种批评没有认识到 Transformer 模型在处理整数序列(代表文本的 token ID)时所表现出的复杂理解和生成能力。

图源:https://twitter.com/DrJimFan/status/1758549500585808071

对此,谷歌研究科学家 Kevin P Murphy 表示,他不确定最大化像素的可能性是否足以促使模型可靠地学到精确的物理,而不是看似合理的动态视觉纹理呢?是否需要 MDL(Minimum description length,最小描述长度)呢?

图源:https://twitter.com/sirbayes/status/1759101992516112864

与此同时,知名 AI 学者、Meta AI 研究科学家田渊栋也认为,关于 Sora 是否有潜力学到精确的物理(当然现在还没有),其背后的关键问题是:为什么像“预测下一个 token”或“重建”这样简单的思路会产生如此丰富的表示?

他表示,损失函数是如何被激发的并不重要,损失函数的设计动机(无论多么哲学化或复杂)并不直接决定模型能否学习到更好的表示。事实上,复杂的损失函数可能与看起来很简单的损失函数实际上产生了类似的效果。

最后他称,为了更好地理解事物,我们确实需要揭开 Transformers 的黑匣子,检查给定反向传播的训练动态,以及如何学习隐藏的特征结构,并探索如何进一步改进学习过程。

图源:https://twitter.com/tydsh/status/1759293967420805473

田渊栋还表示,如果想要学习精确的物理,他敢打赌需要主动学习或者策略强化学习(无论如何称呼它)来探索物理的精细结构(例如物体之间的相互作用、硬接触)

图源:https://twitter.com/tydsh/status/1759389064648888395

其他观点:Sora 被认为是“数据驱动的物理引擎”太荒谬

除了众多 AI 圈大佬之外,也有一些专业性的观点开始反驳 Sora 懂物理引擎这一说法。

比如下面这位推特博主,他认为 OpenAI 是数据驱动的物理引擎这一观点是荒谬愚蠢的, 就好像收集了行星运动的数据并将它们喂给一个预测行星位置的模型,然后就得出该模型内部实现了广义相对论的结论。

图源:https://twitter.com/ChombaBupe/status/1759226186075390033

他称,爱因斯坦花了很多年时间才推导出了重力理论的方程。如果有人认为随机梯度下降(SGD)+ 反向传播仅凭输入输出对就能理解一切,并在模型训练中解决问题,那这个人对于机器学习的理解是有问题的,对机器学习的工作方式了解也不够。

爱因斯坦在理论推导中对现实做出了很多假设,比如光速恒定、时空是灵活的结构,然后推导出了微分方程,其解揭示了黑洞、引力波等重大发现。可以说,爱因斯坦利用因果推理将不同的概念连接了起来。

但是,SGD + 反向传播并不是这样,它们只是将信息压缩到模型权重中,并不进行推理,只是更新并转向实现具有最低误差的参数配置。

他认为,机器学习(ML)中的统计学习过程可能会显然低误差“盆地”,即无法探索不同的概念, 因为一旦陷入这些低误差“盆地”或者局部最小值就无法重新开始。

因此,SGD + 反向传播发现了看似有效但却很容易崩溃的、脆弱的解决方案捷径。这就是为什么深度学习系统不可靠并且实际训练起来很难,你必须在现实中不断更新和训练它们,这就很麻烦。

梯度下降的工作原理就像一只苍蝇寻找气味源一样,即苍蝇跟随空气中的化学浓度向下移动,从而引导它导向气味源。但如果仅依赖这种方式,则很容易迷路或陷入困境。

在机器学习中,模型的可调节参数就像苍蝇,训练数据就像气味源,目标函数测量的误差就像气味。而调整模型权重的目的是向着气味源(这里是低误差,相当于更浓的气味)移动。

最后,他得出结论,如果认为机器学习模型仅仅通过训练行星运动的视频就能在内部学到广义相对论,那就更荒谬了。这是对机器学习原理的严重误解。

此外,有网友指出 Sora 视频示例中充满了物理错误,比如一群小狗在雪中玩闹的场景就很糟糕,大块雪的运动就完全违反了重力(是否真如此,有待判断)

图源:https://twitter.com/MikeRiverso/status/1759271107373219888

Sora 到底懂不懂物理?将来会不会懂?“预测下一个 token”是不是通往 AGI 的一个方向?我们期待各路研究者进行进一步验证。

本文来自微信公众号:机器之心 (ID:almosthuman2014),作者:张倩、杜伟

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月19日
下一篇 2024年2月19日

相关推荐

  • 波士顿动力转向纯电机器人,电动为什么是机器人唯一方向?

    几天前,波士顿动力在网上宣布,Atlas。

    一、新的:电动“Atlas”

    “Atlas。”

    但波士顿动力并非是第一家推出电动机器人的公司。的说法,Atlas“肯定需要是一个通用机器人”,但是在通用性方面还有很多工作要做,以便人形机器人能够拾取一千个不同部件中的任何一个,都能合理地处理它们,“这种普遍性尚未得到证实。

    为了向这款推动人形机器人极限的机器人致敬,波士顿动力发了一段。

    未来科技 8小时前
  • 小米造了车,红旗要造手机

    4月18日,中国一汽在微信公众号发布消息称,在当日举行的中国一汽第五届科技大会上,中国一汽与亿咖通科技签署了智能座舱战略合作协议,除了在汽车智能座舱领域展开合作外,双方还将共同打造红旗品牌高端手机。

    抢夺智能生态大单

    从一汽和亿咖通将“共同打造红旗智能座舱和红旗OS,并打造红旗品牌高端手机”的合作模式来看,在亿咖已有的合作案例中,与极星汽车的合作很可能成为与红旗合作的模板。

    未来科技 1天前
  • 号称超越GPT-4的大模型们,有多少靠的是“抄袭”

    让模型走向同质化的“数据捷径”

    “如果所有人都用一样的数据,你又怎么会比其他人好呢。

    大家都知道,在大模型训练过程中,数据至关重要,并且在不同阶段的侧重点也有所差异。

    在训练基座模型时,数据追求的是“量”,对算力要求也是极高,它决定了大模型对事物的基本“理解能力”。

    如果按这个标准,现有的高质量文字数据和图像数据加起来体量根本不够,还差。

    未来科技 1天前
  • 中国互联网三十周年,那些陨落的流星

    2015年,一个叫戴威的25岁北大青年,受Uber共享春风的吹拂,买了20串羊肉串,拜托中文系师弟写了一封振奋人心的公开信《这2000名北大人要干一票大的》。或将转型SNS交友网站》中关村在线
    《1286天,熊猫直播从生到死》澎湃新闻
    《天涯创始人首度回应关停:不会放弃,用户数据不会丢》新黄河
    《西祠胡同终成“死胡同”,论坛兴衰史再添一员》三易生活
    《十年前,那些我们曾迷恋过的网站》电脑报
    《中国互联网30年,网红的前世今生》新华报业网

    本文来自微信公众号:镜相工作室(ID:shangyejingxiang),作者:郑思危,编辑:周近屿

    未来科技 1天前
  • Llama 3发布,亮点在于“小”模型

    GPT-3.5,而且需要的算力低、反应快,甚至可以在手机、电脑上本地运行,“希望大家继承这个趋势,训练和发布用更长时间训练更小的模型。架构中,要提升大模型的效果,需要按照特定比例提高训练大模型的数据量、模型本身的参数以及算力。

    想要降低成本,最直接的方法是训练参数更小的模型,让用户的手机、电脑直接在本地运行,分担平台的压力。

    怎么让更小的模型有更好的效果,成了大模型公司们的竞争焦点。

    未来科技 1天前
  • 谷歌全面整合AI力量背后:DeepMind浮沉史

    DeepMind从2016年到2019年的营收与亏损,图片来源:VentureBeat

    2019年初,三位DeepMind人工智能工程师离职,比如著名安全工程师本·劳里(Ben。

    不过知情人士称,哈萨比斯在2021年告诉DeepMind员工,在谷歌CEO皮查伊承诺提供更多资金后,在DeepMind高层被称作“马里奥计划”的分离大业就此搁置。

    未来科技 1天前
  • 拍下苹果Vision Pro最美X光图的公司,“iPod之父”也有投资

    Vision。

    Meta。

    在。分析看来,两个系列产品不分高低,其工程设计差异更多地反映了其设计理念和定位不同:

    一个是要挑战体验和设计上的极致,另一个是要在保持一定体验前提下,尽可能地让更多人用得起。

    苹果三代。光视觉”,产品设计的利器

    一看到这个扫描仪,我就说“我最快能什么时候给你们投资。

    Fadell。

    而在。

    甚至在。

    未来科技 1天前
  • 大中型上市银行加码金融大模型研发,场景广泛应用尚待时日

    竞逐金融大模型

    年报显示,工商银行在2023年度建立了行业内首个全面自主研发且具有千亿参数级别的AI大模型技术体系,并在多元金融业务场景中实现了创新性应用。

    具体来看,工商银行、建设银行、农业银行、中国银行、交通银行、邮储银行在2023年的科技投入分别为272.46亿元、250.24亿元、248.50亿元、223.97亿元、120.27亿元和112.78亿元,同比分别增长3.90%、7.45%、7.06%、3.97%、3.41%和5.88%。

    未来科技 1天前
  • 姚颂:穿过创业与投资的旋转门

    一、穿过创业与投资的旋转门 各位老师、同学们晚上好,很高兴再次回到校园与大家分享我的创业经历,最近大家比较关注的问题是未来应该做什么,创业方向是什么,对航天领域也比较感兴趣,所以我…

    未来科技 1天前
  • AI企业疯狂“卷”文本

    月之暗面公司相关负责人向记者强调,与其他公司的产品不同,Kimi的长文本是无损压缩技术的长上下文,RAG是有损压缩技术。

    他也提醒说,长文本只是大模型的一个技术特色,除了长文本之外,大模型还有高效训练、多模态、模型压缩、安全伦理等多方面的问题需要研究,“今天大家盯着长文本是好事,但也不能忘了其他,做好大模型需要多面开花。

    未来科技 1天前