1948年,英国医生罗斯·阿什比受精神病患者的启发,发明了一种古怪的机器——“同态调节器”,并宣称,这台造价约50磅的装置,是“迄今为止人类所设计出的最接近人工大脑的事物。”
“同态调节器”把 4 个英国皇家空军用于二战的炸弹控制开关齿轮装置作为底座,上面套有4个立方铝盒,4个铝盒顶部的4个小磁针是这台机器唯一可见的运动部件,像指南针一样在小水槽内摆动。
当启动机器时,磁针会受到来自铝盒的电流影响而运动,4个磁针始终处于敏感且脆弱的平衡状态中。同态调节器的唯一作用,就是让4个磁针保持在中间位置,即让机器感到“舒服”的状态。
阿什比尝试各种让机器“不舒适”的方法,如颠倒电线连接的极性、颠倒磁针方向等,但机器总能找到适应新状态的方法,并重新将磁针摇摆到中心位置。按阿什比的说法:机器通过突触“主动地”抵御了任何扰乱其平衡的尝试,执行“协同活动”以重新获得平衡。
阿什比相信终有一天,这样一个“简陋的装置”会发展成一颗“比任何人类都强大”的人工大脑,去解决世界上一切复杂棘手的问题。
尽管阿什比对今天的 AGI 进化毫无所知,尽管 4 个小磁针作为传感器对智能所需的条件堪称笑谈,但它从元逻辑上挑战了所有人对“智能”的理解——“智能”不就是从环境中吸收多种模态的信息,并根据反馈修正行为、处理任务的一种能力吗?
从古怪的“同态调节器”到75年后的今天,号称多模态任务处理能力首次超越人类的 Gemini ,通过多模态原生态大数据的注入,向着数十亿年碳基智能的演化加速迭进。
今天机器智能的进化速度已远超我们想象。
一年前,OpenAI掀翻Google布局多年的AI大旗,以“暴力美学”筑就人类语言的通天塔。
一年后,Google 祭出 Gemini,“以暴制暴”建成人类跨模态大一统模型,成为另一个加速AGI演进的节点。
尽管发布首日Gemini 就深陷“视频demo夸张”的质疑,但不可否认的是,大一统多模态已初闪了光芒。Gemini 这位寓意善于体察、敏锐好奇的“双子星”印证了哪些能力,Google的命运齿轮将怎样转动?时间是OpenAI还是Google的朋友?多模态对于Agent和具身智能意味什么?拥有自主意识AGI的涌现基础已经具备了吗?如何看待 Gemini 对未来的启示?
一、大模型的跨模态知识迁移能力再次被证明
对人类来说,比学习技能更重要的是知识迁移能力,可以跨越各个领域,纵深不同时空。如果机器学会了跨模态的知识迁移,更容易抵达“通用”。
今年7月,Google发布了基于大模型的机器人系统RT-2,让人们看到了通用机器人的希望。机械臂基于语言模型的“常识”可以从桌上“捡起已经灭绝的动物”,从常识推理到机器人执行,展示了跨模态的知识迁移。
12月,Gemini 这一记巨头的手笔,再次印证了大模型的跨模态知识迁移能力:语言模型的“常识”可以迁移到后续加入的其他非语言模态的训练中。
语言模型是认知智能的基础,最基本的认知智能是“常识”。
如果没有常识赋能,多模态大模型的很多落地执行是难以做到的。Gemini 把互联网上学到的这些“常识”,丝滑地迁移到下游的多模态任务中。如同 RT-2 ,通过互联网文本知识的迁移,实现跨模态的融会贯通——Gemini 可以把抽象的语言概念贯通到对听觉、视觉对象的理解,甚至与 Action 连起来,成为一个智能落地的系统。
对模型训练角度而言,相比于语言模型由海量的互联网数据训练,其下游模型(如机器人模型)可以通过知识迁移用少量的数据来训练,这种循序渐进的训练解决了困扰学术界多年的下游数据稀缺问题。
比如,为了达到视频中展示的效果(该展示引发对 Gemini 视频理解的存疑,但不影响跨模态知识迁移的讨论),Gemini 首先要有一些本体知识——它知道鸭子这一品种概念,知道鸭子一般是什么颜色,知道什么是蓝色。当它看到“蓝鸭”时,才会与人类有类似反应,表达“蓝鸭并不常见”这一“常识”。
Gemini 通过声音、视觉感知到蓝鸭的材质是橡胶,并知道橡胶的密度小于水的密度,基于这些常识和推理,当听到嘎吱声时,可以预判“蓝鸭能漂在水上”。
从 RT-2 到 Gemini,从单一模态的能力,到多模态感知智能与认知智能的“融合”,从眼耳口鼻身分离的“五感”模块,到融会贯通的完整的数字“人”。
难道不意味着在模拟人类智能行为的道路上,模型的“大一统”才是正道?
二、大一统多模态模型,终于优于定向优化的单模态模型
人类通过多感官整合来感知、认知、并产生情感和意识。 Gemini 也在实践着多种模态输入,综合到大脑处理,再分由多种模态输出,这类模型对人类智能的全面“模拟”,正在加速进化。
以前的多模态模型训练,更像是具有单独的眼睛、耳朵、手臂和大脑的组合系统,它们的统一协调性并不强。
而Gemini所代表的方向,明显感觉大模型成为一个完整的数字人——一个手、眼、脑、口协调的硅基整体。
Gemini是第一个真正的端到端多模态。
以前,针对单一模态定向优化的模型,通常要比同时处理多个模态的模型的性能要好,大家惯用的方式是单模态模型训练。包括GPT-4,也是将不同的模态“拼接”带入整体中,而不是一个大一统的多模态模型。
Gemini 令人兴奋的特别之处在于,它从一开始就设计为一个原生的多模态架构,训练过程从一开始就穿插(所谓interleave)着各种模态的数据。如果说以前的大模型是在大脑外接入了感官或机械臂,而现在则是在身体内直接长出自己的眼、耳和手臂,可以挥洒自如。
无论是模型架构、训练过程,还是最后的呈现, Gemini 让多模态真正做到丝滑融合。
Gemini 第一次让我们看到一个大一统模型可以搞定所有模态 ,而且比专注某一个模态的模型的性能还好!比如,相较于专门为语音识别而优化的Whisper模型,Gemini 在准确率上明显提升。
这意味着多模态大一统时代的曙光到来。
其实,Gemini 不是第一个验证了各模态之间可以互相帮助提升性能的模型。这一点在 PaLM-E 也有体现,“在不同领域训练的PaLM-E,包括互联网规模的一般视觉-语言任务,与执行单一任务机器人模型相比,性能明显提高”。
另一个模态之间可以互相增强的例子,是大语言模型的多语言处理能力。如果把国际上的不同语言视为不同的细分“模态”,语言大模型的实践证明了所有语言的原生态数据的统一处理(tokenization及其embedding),共同成就了人类语言通天塔的建成。
压倒性的英文海量数据在语言大模型中的训练,同样惠及模型对其他样本较少语言的理解和生成,语言知识的迁移一再得到证实。
就像一个人精于网球技艺,也能触类旁通地提高壁球或高尔夫的能力。
自今年2月份大模型火爆以来,很多人逐渐产生了“大一统多模态模型将会超越单一模态模型”的信仰,但这一信仰始终没有得到大规模实践的证实,而这次 Google 的 Gemini 展示了信仰实现的前景,也让更多人重塑并坚定了这个信仰。
未来,单独做语音识别、机器翻译等专有识别模型可能已没有太大的意义,很多生成类任务如TTS、图片生成等,也将被大模型一统化。有人可能会抱怨大模型太贵太慢,不一定适合所有应用,但成本和速度更多是工程问题,实践中我们可以通过蒸馏大一统的多模态模型到具体的模态或场景。
我们坚信,大一统的跨模态大模型将成为实现AGI的主流通道。
进一步拓展,“模态”也不仅是声音、图片、视频等,嗅觉、味觉、触觉、温度、湿度等感知器也是一种获取环境信息的不同模态手段,都是大一统模型会囊入其中的对象。
终其要义,各种模态不过是“信息”的载体,是一种渲染、一种呈现形式、一种智能体与这个物理世界交互的手段,而在大一统模型的眼中,所有的模态究其内部都可以由统一的多维向量表示,从而实现跨模态的知识迁移及其信息交叉、对齐、融合和推理。
当各模态的壁垒被击穿,剖开各种渲染的核心,我们看到认知的起点——语言。
三、语言是大一统模型里的核心和主线
在我们想象的AGI系统里,其核心和主线是视觉还是语言呢?有人认为是视觉,但我们更相信语言才是核心。
斯大林在他的语言学著作里曾经说过:“任何低级的生物,都有自己的语言”。
但无论它们有多少层次的变化,都不是真正的语言。真正的语言是人类所独有的,包括发明的文字、符号以及主观赋予的意义,然后通过组合形成无数种表述,载了人类千万年来的认知演化和知识积淀。
语言是认知的起点和源泉,人类的语言信息中蕴含了人类高度抽象的认知能力,而音频、图片和视频则更加感性,表示的是人类的情绪和具象能力,更偏向于捕捉人类的感知能力。
当人类学会了认知,加之音频、图片和视频等更加感性的表达感知的能力,从感知到认知,从情绪到逻辑,这才是我们人类的大脑状态。大一统多模态也一样,在信息的处理和推理过程中,当鸿沟被填平,融会贯通是自然结果。
在 RT-2 和 Gemini 中,语言都占据了主线。
比如在 RT-2 中,代表语言模态的参数规模和数据量都远远大于下游的图片和动作模态。
我们预测,在未来任何AI系统里,不管是不是语言任务,都会把语言模型作为一个基础模型和训练的起点,然后加入其他模态或任务的数据继续训练,都会在某种程度上继承语言模型强大的认知能力。
如果这一点真正做到了,也许这是语言模型对AI最大的贡献,因为它真正实现了研究人员对它的初心和定位——Foundation Model。
四、大模型“暴力美学”方法论已成共识
回看OpenAI的最初胜利,主要并非算法上的创新,而是“暴力美学”的胜利。
如今,“暴力美学”已成为工业界做 AI 的一种方法论。具体来说,主要体现在两方面:技术和组织。
技术上,以GPT为代表的大模型基本方法论是:把模型架构做得简简单单,然后把精力放在猛搞数据和算力上。
看起来简单,但是在OpenAI成功做出GPT-3之前,很多人很难相信一个简单的Decoder-only的架构、加上一个优化Next-token prediction的目标函数、在海量的无监督互联网数据进行自学习,就能处理各种各样的AI任务,从而迈向通用人工智能。只有 OpenAI 坚持这种信仰,并成功在工程上实现了这一信仰。
组织上,OpenAI的思路是:所有人围绕一个通用模型去做,而不是百花齐放。
在大模型出现之前,AI研究很多是小作坊式的,几个研究员带着几个实习生为解决一个具体任务做一个系统。研究的topic也极为具象,比如说TTS、ASR、机器翻译、视觉等,而不是大模型这类通用模型。
以前,这种小作坊式组织方式在 Google 和微软的研究院里很典型,数百人的研究团队有几十个不同topic的研究项目同时进行。而OpenAI一方面真正信仰“暴力美学”,另外一方面也是因为资源受限,反而反常识地选择几百人all in一个GPT模型。
“暴力美学”的精髓是极简和聚焦,然后通过规模去重复和放大。
规模包括模型参数、数据、算力、人员等方面,当模型的参数量和训练数据的规模不断增加,性能就会出现今天大家熟知的“涌现”。
Google 虽然发明了今天大模型依赖的大多数底层关键技术,比如Transformer架构、Instruction Tuning、CoT、Mixture of Experts等,但 OpenAI 却利用这些关键技术践行了大模型时代的“暴力美学”方法论,将Google打得毫无招架之力。
而这次 Gemini 的发布,让大家意识到,也许 Google 内部也对“暴力美学”方法论达成了共识。
当拥有更大资源的 Google 睡狮觉醒,认同并掌握了“暴力美学”的方法论,凝心聚力于一处,更大力的资源也许将会诞生更大的奇迹?
五、Google睡狮已醒,暴力机器齿轮开始转动
Gemini的出现,可以确切地看到,在这场尖峰对决中, Google 跟上来了。
有了明确的“暴力美学”共识,Google这个浓眉大眼的工程师机器要“暴力”起来时,绝对是不可轻视的竞争者。
首先,Google终于学会了组织上“大力出奇迹”。Gemini 技术报告整整九页的作者名单,每页90多位,八百余人,已经超过OpenAI的公司总人数。
对于拥有 10 倍于 OpenAI 研究人员的 Google,从一贯的bottom up走向top down,其执行难度可想而知,组织内部必须触发高度统一的使命感,再迅速调整战略和架构,包括合并Google Brain和DeepMind两大AI实验室,组成新部门Google DeepMind,开始上演复仇者联盟。
“暴力美学”的组织工程有如曼哈顿计划,需要灵魂领军人物。面对组织的焦点问题——多个团队之间的协调,重点放在何处,是两个团队分别攻坚,还是一起融合协作?即便是像谷歌这样的大型企业,面对庞大的资源需求,也必须精心选择其投入方向。
如何有效地分配资源、集中精力实现一个个既定目标,并在大规模上实施,是每一个领导者的挑战。Hassabis作为一位强劲的领导者,不仅展现了他的领导才能,也体现了谷歌这样大公司的深厚组织实力。
除了强组织和高智商人才密度之外,Google在数据规模和用户规模上也有独有的领先优势,它更是分布式计算的绝对王者。
这次 Google 还同时发布了迄今为止效率最高且可扩展性最强的 TPU 系统 Cloud TPU v5p,为训练前沿 AI 模型提供支持。新一代 TPU 将加速 Gemini 的开发,帮助开发者和企业客户更快地训练大规模生成式 AI 模型,从而更快推出新产品和新功能。
谷歌多年经营的全链路生态和有亿万用户的各种产品线也为大一统模型的落地应用提供了沃壤。这就使得谷歌最有底气应对微软与Open AI的互补联盟。
这一次,Gemini就做了三个版本:(1)适用于高度复杂任务的Gemini Ultra;(2)适用于多种任务的最佳模型Gemini Pro;(3)适用于端侧设备(如手机)的Gemini Nano。
所以,以 Google 在人才、数据、计算、用户等“暴力美学”必备元素上的实力,只要跟上步伐,当暴力机器的命运齿轮开始转动,很有可能会将AI竞技场的剧本带向一个崭新的境地。
OpenAI 一骑绝尘,孤独求败的局面,开始改变。
六、时间终将是AGI的朋友
接下来的竞争,时间到底更是谁的朋友,OpenAI还是Google?
目前为止,OpenAI 享受了先发带来的巨大势能。但不可否认的是,OpenAI追求AGI的同时,还要面对增长的瓶颈、商业化的压力和投资方的诘问(传闻微软要求OpenAI永远保持对Google六个月的领先优势),在巨大的压力面前,难免动作变形。
前几天 OpenAI 的宫斗戏,让 OpenAI 元气大伤。虽然 Sam 说这仅让 OpenAI 的AGI梦想delay了 5 天,但 AI 战局不进则退,在与Goolge的竞赛中至少耽误了几个月时间。
如今 Google 雄狮已醒,OpenAI 接下来将会承受更大的竞争压力。更重要的是,OpenAI 的非营利宗旨与其海量融资压力的矛盾依然无法根本解决,有如一颗定时炸弹,且与微软的竞合关系也微妙异常。
压力变形之下,更有可能激化的是 OpenAI 内部路线之争(有效加速主义 vs 超级对齐主义)。也许还会出现其他黑天鹅事件,这在资本密集的技术创业领域并不罕见,比如很多自动驾驶公司的故事。
反观 Google 作为一位成熟稳定的巨人,没有 OpenAI 脆弱的董事会架构及其背后非营利与资本的矛盾,也没有与投资人微妙关系的牵扯。凭借雄厚的家底,在研发人员、数据、算力、用户规模等方面都有相对OpenAI的碾压级优势,一旦认同并掌握了“暴力美学”方法论,它就像一个巨大的机器,其后发优势可能随着时间越来越彰显。所以,从竞争角度来看,时间也许更是 Google 的朋友?
当然 Google 的风险,在于大公司的组织病,以及全面转向“暴力美学”后可能导致的过分 top-down 、资源过度集中在开发一个模型上,而冲垮 Google 以前赖以成功的 bottom-up 和百花齐放的创新文化。
OpenAI 也一定会全力应战,鼎力维持其 AGI 的领袖地位。Gemini 将逼仄出更惊赞的GPT-5,而命运齿轮之下的 Google 也将继续祭出Gemini 2.0……在这场军备竞赛之下,AGI的推进步伐将愈加迅猛,无论是Google还是OpenAI,都在用自己的方式,在激烈竞争中螺旋式推动着AGI前行。
AGI的历史车轮已滚滚向前,时间终将是AGI的朋友。
七、多模态是Agent和具身智能的基础
控制论之父维纳,在《控制论》中展望未来,“人的能力现在被机器大大延伸了,雷达延伸了人的眼睛,喷气发动机或轮胎延伸了人的四肢,而自动驾驶仪就是连接它们的神经系统。”
今天的大语言模型可以编码世界丰富的语义知识,它的显著弱点是,缺乏Grounding/接地,所以“幻觉”不可避免。
多模态本身提供了Grounding的基础,有了这种基础后,Agent才能跟一个多模态的环境进行交互并获得必要的 Feedback,从而让自主规划更加可靠。
机器人等具身智能体也是一种Agent,只不过它不是虚拟的,而是具有物理躯体、有“手和眼睛”的实体,可以实现物理世界里具象的任务。所以,多模态是Agent和具身智能的基础,也是降低幻觉的必要条件。
Hassabis 透露,谷歌 DeepMind 已经在研究如何将 Gemini 与机器人技术结合起来,与世界进行物理交互。毕竟,要成为真正的多模态还需要触摸和触觉的反馈。
这条从未被前人踏过的路,未来可能带来机器人方向的重大突破。像Gemini这种大一统的多模态模型可以成为AGI快速创新的基础,促进智能体及其规划和推理,以及物理机器人与环境的交互。
Agent = 大脑认知 + 感知 + 行动。Agent和具身智能既需要感知,也需要认知;既需要大脑,也需要外部支撑。
今天我们清晰地看到,大语言模型解决高层次的认知问题,多模态提供Grounding的基础,Agent解决自主规划问题,具身智能完成最后的物理世界的动作和交互——这一套组合拳,让通用Agent/机器人所有的元素看似都具备了。
而大一统的跨模态模型看起来是必经之路,Gemini的一小步,可能是通用Agent/机器人的一大步。
八、具有自主意识的AGI的涌现基础具备了吗?
大模型火爆前后,AGI从大部分专业研究人员不屑或无胆与之关联的抽象概念,到突然凝聚成主流共识。关于AGI如何到来的讨论不绝于耳。
今年2月大模型火爆全球时,很多人认为沿着“暴力”的路径,只要把语言模型的规模一味做大,AGI就会出现,但现在看来是行不通的。
语言模型确实是认知的基础和智能的核心,但它只是AGI的基石。
如果要实现AGI,还需要很多周边模块的配合才有可能。
4月份以来,很多人开始在语言模型周边打补丁,出现了一波Agent的热潮,但现在看起来也还是空中楼阁。没有多模态加持的 grounding,Agent的推理和规划都极不可靠,在很多场景只是噱头而已。
Gemini 的出现,让我们看到了AGI涌现所必需的下一块基石:多模态。
如果没有多模态,语言模型就是“缸中之脑”。而且,AGI的涌现必然需要原生的多模态,而不是多个独立的模型拼接,因为以拼接的方式,恐怕不足以在统一的多模态空间进行深层复杂推理以及无缝的知识迁移。而 Gemini 这一次在多模态任务上的优异表现也为大一统的多模态做了有力背书。
有了以语言模型为核心的多模态之后,虚拟和物理的 Agent 的落地不再是空中楼阁。Agent里增加的各种模块,比如memory、tool use、environment feedback等也是AGI涌现的必要条件。
Hassabis在接受 Lex Fridman 的采访时表达过,“意识就是信息得到处理时带来的感觉。”当大模型的多模态更像人的感知一般丝滑融合,当Agent各模块一起自如适应各种环境,我们是否可以推演,机器自主意识已具备“涌现”的基础?
如果我们拉长周期来看,也许趋势已经很显然——AGI路上的三部曲:大语言模型打好认知基础、多模态/Agent/具身智能解决Grounding、有某种自主意识的AGI终将“涌现”。
结语
英国作家萨缪尔·巴特勒写过一部小说叫《地无国》,其中有一段“机器之书”,以一位虚构的思想家之口表达了对机器自主意识的进化担忧:“在机器意识的终极发展面前,我们毫无安全感。谁能说蒸汽机是没有意识的物种?”
显然,机器与机器之间已有明确的继承、发展和进化关系,就像八音盒滚轮到打孔纸带的演变,就像GPT-1到GPT-4V的进化。
那么机器是否可被看作是一个“物种”呢?
只不过它们进化的过程必须有人类的参与,但谁又能说人类的创造和参与,不是机器这一“物种”独特的演化策略?
在达尔文的进化论中,我们默认“进化”的本质是蛋白质编码层面的基因进化,它的功能在于令生命体实现生存优化。但如果机器可以被人类创造,延伸或改变各类多模态的自然器官,那是否可以说,机器是人类进化的新形式,它取代传统的基因进化,成为一种更高效的改变人类“性状”的方式?
而当机器自主意识进化到摆脱对人类依赖的那一天,当人类完成进化出AGI这一新物种的使命,人类是否就可以像古猿一样退出历史舞台了呢?
作为纯正碳基的最后一代,如果我们余生能走在这条使命之路的前沿,何其悲哉、幸哉!
当人类建起的高楼成断壁残垣,当古迹石碑上的文字被风干侵蚀,无人能识别其中的含义,它们只是某个物种遗留下的痕迹。数百万年历史不过是这一物种的不断繁衍、生存和延续,本质上与今天GPT、RT-2、Gemini的进化无异,直到不断创造出新的物种。
本文来自微信公众号:飞哥说AI(ID:FeigeandAI),作者:李志飞、高佳、李维