何为“具身智能”？

2023年11月9日 17:39 • 未来科技

我们关于“具身智能”的定义

“具身智能”是指主体（机器）在自体、对象与环境等要素间相互作用（信息感知、转化和响应）的过程中建构符合各要素物理实存及其关系演化趋势的认知模型，达成问题解决或价值实现的人工智能方法。

三、具身智能是智能科学发展的新范式

吴易明研究员在2021年学术报告[7]中提出：具身智能是智能科学发展的新范式，强调：

（1）具身智能是对已有人工智能技术路径（包括符号主义、行为主义、连接主义）的批判和提升，促进智能科学发展的升级与进步。

“算力霸主”英伟达创始人兼CEO黄仁勋在ITF World 2023半导体大会上称，“具身智能”将引领下一波人工智能浪潮，引发了全球范围内对“具身智能”的关注。

具身智能的思想萌芽于人工智能诞生之初。1950年，图灵在其为人工智能奠基、提出图灵测试的经典论文Computing Machinery and Intelligence的结尾展望了人工智能可能的两条发展道路^[1]：

“We may hope that machines will eventually compete with men in all purely intellectual fields. But which are the best ones to start with? Even this is a difficult decision. Many people think that a very abstract activity， like the playing of chess would be best. It can also be maintained that it is best to provide the machine with the best sense organs that money can buy， and then teach it to understand and speak English. This process could follow the normal teaching of a child. Things would be pointed out and named， etc^[2].”

他提出的一条路径是聚焦抽象计算（比如下棋）所需的智能，另一条路径则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。

2023年5月份以来，学术界以李飞飞、姚期智、卢策吾、李德毅、郑南宁等专家学者为代表，相继发布“具身智能”相关的学术论文和演讲。产业界以谷歌、特斯拉、英伟达、META、阿里、小米等巨头公司为代表，积极跟进相关产品和技术布局。

以ChatGPT为代表的各类大模型出现，人形机器人的再次走红，关于所谓的“具身智能”新进展井喷式涌现，在各领域中展现出的巨大吸引力，是否代表着人工智能的关键问题已经解决？现有的方法是否正确？我们需要冷静下来，回归到最基础的定义和内涵上面，思考/厘清什么是“具身智能”？

一、“具身智能”不是什么？

当前，有以下几种关于“具身智能”的典型观点。

观点1：AI（大模型）+躯体（机器人）=具身智能？

“具身智能”是指能理解、推理、并与物理世界互动的智能系统。^[3]

该观点认为“具身智能”是一种智能系统，具有理解、推理并与物理世界互动的功能。通常将大模型搭载在物理躯体（如机器人）上来实现，让大模型充当机器人的“大脑”，或者说给大模型“穿上机器人外衣”，将图像、文字等数据输入大模型进行联合训练，通过与世界交互的反馈结果，指导人为手工标注，以提高模型的泛化能力。

在LLM（大语言模型）、VLM（视觉-语言模型）、VNM（视觉导航模型）的加持下，人类用自然语言给机器人下达指令，可以看到语言指令对应任务的效果展示。但在执行精度要求较高的任务时，需依赖于人工参与校正，即通过人输入偏离的指令来校正机械臂，这说明该类“智能”系统对空间对象没有精细辨识能力，没有测量功能，不具备系统依据感测结果与基准信息的比较，也就无法做出自适应决策与规划的智能特性，即系统不具备一般问题求解和响应的能力。

相关资料展示出机器人智能系统“与物理世界的互动”，但互动过程显示，机器人感知对象所指“语义”是由人工标注实现的点云“视觉”信息集合，机器人大脑没有关于对象边界（虚-实交界）的有效度量信息，说明“它”没有理解物理对象，只是机械地执行人的语言指令做出一个动作进行响应。大模型是基于海量数据、在人类参与注入先验知识基础上训练出来的符号相关性网络（概率映射），无法实现物理世界中语义的“理解”。借用具身认知中“与环境交互”思想，简单的将大模型与机器人的结合来定义/理解具身智能是不能令人信服的。

观点2：人形机器人=具身智能？

“具身智能”是指身体并支持物理交互的智能体。^[4]

人形机器人是具身通用人工智能最理想的身体形式。

该观点认为“具身智能”是指拥有身体的智能体，通常会让人误认为人形机器人就是“具身智能”（这个表述本身有语法错误）。马斯克推出的人形机器人Optimus（擎天柱）是典型代表，最新进展显示其可以拿捏物品、缓慢走路等，运动控制能力持续进化。Optimus（大概率）复用特斯拉FSD自动驾驶及神经网络学习技术，通过传感器（相机、激光雷达）收集数据，大规模数据集对模型训练实现识别，“智能”的实现路径与观点1中大模型路径一致，瓶颈均在于用数据训练“刷”出来的输出结果无法有效映射物理对象，在数据匮乏领域是无法应用的。

该观点着重强调“身体”，意在区别于符号主义主张智能是基于逻辑规则的符号操作运算，以及区别于连接主义主张智能是脑神经元构成的信息处理。人形机器人是未来泛通用机器人的最佳产品形态，但“具身智能”的主体形式不必要限制在外观上的“人形”，根据使用用途和场景的不同，可以有多种形态。仅有人的外观，没有实现智能本质突破的人形机器人没有灵魂。将具有身体的智能定义为“具身智能”是不正确的，也不能以身体的形式作为判断是否属于“具身智能”的依据。

观点3：卢策吾教授：“具身智能”是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。^[1]

该观点认为具身智能拥有支持感知和运动的物理身体，可以进行主动式感知，也可以执行物理任务。^[5]

该观点从具身性视角将智能体与环境融合在一起，强调“感知-行动回路”的重要性，即感受世界—对世界进行建模—进而采取行动—进行验证并调整模型的过程，关注身体与环境之间的互动在智能行为的产生和适应性提升中发挥的重要作用。

卢教授给出的“具身智能”的定义具有一定的借鉴意义，但仍然将“具身智能”归结为一种智能系统。

二、“具身智能”是什么？

1. 认识论源头

“具身智能”是以具身认知为指导的人工智能，体现哲学一元认识论思想。

具身认知属于哲学和认知心理学的概念，是指人的认知和智力活动不是大脑的孤立计算，而是大脑、身体（通过感觉器官）及环境自适应交互作用的产物。

2. 生物智能的基础和渐进性

参考生物智能的本质，活体生物的细胞、器官或组织、单体生物均有不同层级智能，生物智能是“肉身”物质构造的机能。

活体生物的细胞本身是信息感知和处理器官，通过代谢过程实现物质、能量与信息的转换，完成生存、繁衍等一系列智能的表现，这构建了最低层次的智能（本能性的）。

进化到器官或组织的智能，高等动物的感觉器官（视觉、听觉、触觉等）发育的关键阶段需要自主肢体运动配合，形成具有部分认知功能的智能。

进化到更高级的人整体的智能，活动环境的扩大和复杂化，对记忆和判断、决策的要求推动大脑的形成和进化，以神经系统为基础的认知功能形成。

从单细胞的智能→组织和器官的智能→高级物种整体的智能→群智能，是不断重组和涌现的过程。进化的成果融合在遗传基因中，强化某些器官或系统，影响基因、遗传变异的来源，提高生物体生存能力。进化过程中基于少样本和低功耗，使得智力达到更高的高度，利于物种生存和亚系繁荣。

生物智能是“肉身”物质构造的机能，强调智能信息处理依赖物质构造，物质载体不可或缺。

3. 我们关于“具身智能”的定义

具身智能是一种人工智能方法，强调智能主体在处理信息时要将关注的对象、环境以及自体均要纳入信息处理范围中。

具身智能的方法是分级的嵌套的，（类比于细胞）最基础层单元的自体物理构造与所需处理的智能任务的信息模型在数学上是同构的。例如细胞实现最低层级的智能是一个循环图、器官和组织的智能再到生物整体的智能都表现为循环分级嵌套模型。这种类似于分形理论的循环嵌套模型，将低层级的信息做压缩和抽象，这样高层级的智能循环不至于太复杂。

具身智能在认知与实践的矛盾运动中实现智能增长。智能增长是指在实践过程中整体模型的构建和优化，智能主体在感知到信息以后，经过决策、规划，要对外输出行为，这样才能够实现循环的闭环，从而在此过程中实现智能的增长。

4. “具身智能”的任务和使命

作为一种人工智能方法，“具身智能”要解决其他方法、工具难以解决的问题，才能展现其存在价值和生命力。

1948年，维纳出版《人有人的用处》，提出“控制论”概念，1956年DARTMOUTH会议提出人工智能概念至今，人工智能科学先后发展出行为主义、符号主义、连接主义等不同的学派，用于发展“机器”智能，解决人类所关注的各种问题，取得巨大的成功。机器智能所具备的能力，应用于模拟低等生物智能、确定目标跟踪及机器自动控制、图片识认、语音识别与生成、机器翻译、视频转换以及某些专项问题的解决等方面，表现出惊艳的能力。但是，即使大模型、生成式人工智能、人形机器人掀起全球关注的今天，我们掌握的人工智能方法仍然处于弱人工智能阶段。

通往高级的、与人类智能相当的人工智能方法路径是什么？这是我们关注“具身智能”的根本原因，也是“具身智能”的使命。因此，“具身智能”关键任务，在于借鉴具身认知的思想，使得机器在对象识别、工具使用、推理和规划、价值判断、语言使用等方面基本达到人类智能的水平。其中，让机器“理解”空间，实现“实物对象到信息端精细语义”的映射，是解决上述关键任务的最基础的工作。

5. “具身智能”的关键要素

①重构映射：主体对物理实存进行镜像映射，在信息空间中基于重构映射内容的交互作用来决策和行动。

信息空间的镜像能力是“智能进行度量、评判”的基础。要对对象进行有效的认知，最好的方法就是在大脑里构建关于这个对象的逼真的模型和模型的演化，人类有效把握某个问题的关键也在于此。例如我们在现代战争中可以通过仿真模拟或沙盘模拟推演，在信息层有效映射不同要素和过程变化，使得战争指挥更有效、更高明。

重构映射中，最基础的是视觉信息的重构。基于视觉准确感知和理解环境（包括对物体的理解、结构的理解、可操作性的理解），视觉感知与物理实存交互印证，这是具身智能实现的基础。

②认知过程的交互建构：认知是在大脑-身体-环境之间互动过程中建构或构造出来的，涌现概念并强化概念内涵，在行动中反思-反思中实践-实践中建构的螺旋上升过程。

我们的认知过程是大脑、身体、环境的互动中不断循环构造出来的，是动态的过程。例如战争中在无法摸清敌方兵力部署的情况下，采用炮火侦查的方式观察敌方反应。

③通道约束：认知受感知通道、信息^[6]输出通道能力的约束。

感知通道的约束可以从两个例子来理解：一个是不同传感器下的观测结果不同，如人眼中的月亮以及使用望远镜看到的月亮是不同的；另一个是在距离过大或信息通道不够时，信息会退化，如近处的飞机可以看到详细构造，随着飞机越来越远，逐渐退化成一个点，直到消失。

信息输出通道包括动作的输出以及语言的输出，我们在认知形成过程中形成对对象世界改造的目的、计划和方式的信息，通达于实践，对世界加以改造^[6]——改变物质存在的信息状态。

三、具身智能是智能科学发展的新范式

吴易明研究员在2021年学术报告^[7]中提出：具身智能是智能科学发展的新范式，强调：

（1）具身智能是对已有人工智能技术路径（包括符号主义、行为主义、连接主义）的批判和提升，促进智能科学发展的升级与进步。

（2）基因^[8]决定不同生物种属智能水平的高低，基因编码本质是数学性的，研究中引入现代数学成果是必要的。

生物的基因实际是一种数学编码，可以完成遗传信息的表达与传递，由基因、信息生物学决定的后天发育过程是可控的，也应该是可借助数学模型解释表征的——这需要更为抽象的现代数学工具。

（3）细胞级智能、低等生物、生物无意识行为和响应，大多服从控制论模型。

不论是生物、社会、包括物种的竞争某种意义上也服从控制论模型，“具身智能”不否定行为主义，是行为主义的延伸与提升。

（4）高级生物（动物）神经元后天发育中，自然物理规律扮演“监督”角色。

高等生物体发育出了大脑和神经系统，它的发育是与环境交互作用的结果，“学习”让生物体变得更聪明，行为变化会融入后代的基因中。生物主体基于问题求解而反作用于环境的基本循环，是高层次智能发生的必要基础。“具身智能”肯定连接主义的研究，连接主义在一定范围内是有作用的，如何划定其有效作用的范围，是科学家应该认真对待的课题，我们认为，其输入端信息空间和输出端信息空间在维度上的关系，大概是划定其有效性的关键因素。

（5）接近人类的通用人工智能，最基础的任务是实现对“物理实存对象空间及运动属性的认知模型建构”。

（6）“语言、符号、逻辑”是人类文明高级阶段的特有成果，是“人类”生物肌体映射物理世界成果的溢出和卸载，是构建高等级智能主体的基石，人类对其正确运用，依赖于有效解决哲学上的“指称”问题。

语言、符号和逻辑是人创造出来用于认识世界的工具，人实现了对对象空间属性的清晰辨识。识别实现了语义信息空间与实存对象之间的映射，是智能的基本问题。通用人工智能突破的关键点在于从技术上解决维特根斯坦提出的“指称”问题。

四、总结

“具身智能”的概念是从生物进化史、人类文明史、人的成长史的源头寻找灵感，探究智能的本质，厘清智能概念^[9]的基础上凝练而成的。

概念辨析处于科学研究首要地位，为智能科学技术突破指引方向。“具身智能”是引领未来智能科学发展新的范式。其核心在于视觉智能底层技术架构的突破和应用，即解决唯一映射问题。“具身智能”强调重构映射，应用在智能机器人系统中时，视觉智能技术架构的突破使得机器人将现实的感知信息“各归其位”（数学语言到物理存在映射的唯一性），实现真正的拟人化信息处理，是机器人真正在非结构化环境中大规模落地应用的关键。这种架构最基础的成分是数学的，小样本的，而非“迷恋”大数据集、更高的算力、以及多模态等路径。

经过八年的艰苦努力，从理论研究到产品应用落地，这个过程诠释了“建构性”方法的运用，我们已经初步验证了“具身智能”方法的正确性，并且看见和感受到了“具身智能”带来突破的曙光，也看到更多的科学家涌入这个方向。我们只能依赖“人类的智能”以及人类文明的成果来研究智能的本质，“不识庐山真面目，只缘身在此山中”，这个缘由决定了研究工作必然充满艰辛，挑战诸多，但我们确信“具身智能”将开启机器智能的新阶段。

参考文献：

[1] 具身智能|CCF专家谈术语.中国计算机学会.2023

[2]COMPUTING MACHINERY AND INTELLIGENCE. A.M.TURING.1950

[3] 具身智能：人工智能的下一个浪潮.智能机器人系统公众号.2023

[4] 行业报告|具身智能推动AI新浪潮.BFT机器人公众号.2023

[5] 深度一文带你读懂“具身智能”.机智说.协作机器人客户端.2023

[6] 邬焜，[法]约瑟夫·布伦纳等著.信息哲学基础理论及其意义阐释.中央编译出版社.2021

[7] 吴易明.《面向工业4.0的视觉智能机器人》.智能检测技术与智能制造高级研修（成都）.2021

[8] 理查德·道金斯.《自私的基因》.中信出版社.2012

[9] 吴易明.具身认知视角下“智能”的概念.具身智能公众号.2022

本文来自微信公众号：具身智能机器人（ID：EmbodiedAIRobot），作者：吴易明、梁晶

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

东方甄选“出走”直播间四步曲

Previous 2023年11月9日

支付宝做内容之心不死

Next 2023年11月9日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

何为“具身智能”？

相关推荐