5月5日,特斯拉在X账号上分享了Optimus(擎天柱)人形机器人的最新进展,Optimus的能力全面升级。
视频中,Optimus利用端到端神经网络执行基本工厂任务,包括对4680型电池单体精确地分类并插入托盘,并且走路速度大幅提升,较去年12月时速度提高30%以上,目前约为0.6 米/秒。此外,特斯拉还特别强调了机器人的自主性,Optimus甚至能在工作中纠正自己的错误。
特斯拉机器人团队工程师米兰·科瓦奇(Milan Kovac)对全新升级的Optimus进行了详细说明:
特斯拉开发并部署了一个神经网络,允许Optimus机器人执行更实用的任务,例如从传送带上捡起4680型电池,并准确地将它们放置在电池托盘中。
这个神经网络完全是端到端运行的,利用机器人自身的2D摄像头以及触觉和压力传感器的数据,直接产生控制关节的序列。网络完全在机器人的全自动驾驶(FSD)控制器上运行,由机器人的电池供电。
Optimus的设计能通过单一神经网络执行多种任务。在训练过程中,特斯拉引入了大量不同的数据。
Optimus目前还不够完善,反应速度较慢,但其成功率正逐渐提高。特斯拉还在训练Optimus如何从失败中恢复,目前已观察到Optimus能自行纠正错误。
特斯拉已在一家工厂部署了多个Optimus机器人,它们每日在真实的生产环境中接受测试并不断改进。目前Optimus也能在办公室中进行长时间的行走而不跌倒。
特斯拉正在进一步研究如何提高机器人的移动速度,让它能适应更复杂的地形,所有这些进展都未影响其类人特性。同时特斯拉也致力于提高整个机器人队伍的可复制性,训练神经网络处理动态校准和机器人间的微小差异。
自从2021年Optimus首次亮相后,三年来特斯拉每隔几个月就会分享Optimus的更新,主要是为了展示其步行速度和执行任务时精准度的进程。特斯拉之前还展示过机器人折叠衣服、自主分类物体以及执行瑜伽等体能动作的能力。特斯拉的CEO埃隆·马斯克(Elon Musk)在去年12月还表示,这些“钢铁大汉”一年内就能掌s握穿针引线。
4月23日,在特斯拉2024年第一季度财报电话会议中,马斯克强调Optimus已经在执行工厂任务,并预计在未来几年内将更广泛地使用。预计今年年底,Optimus将在工厂中执行一系列工作任务。而到2025年底,“机器人将对外销售”。
对于价格,马斯克在3月说过:“Optimus的价格最终将低于25000美元或30000美元,他预计其生产成本将比汽车一半的成本还低。”
更灵活的手部
英伟达高级研究科学家Jim Fan称赞这次Optimus升级是令人瞩目的更新。他表示:“从视频中我们得以一瞥他们收集人类数据的场景,这也是Optimus的一大优势。”
要建立起这样一个高效的数据收集流程,需要哪些关键要素?
首先是Optimus机器人的手部。它的手部是最先进的五指灵巧机器人手之一,具有触觉感应功能,能够感知和处理各种物体。
与许多手部仅有6到7个自由度(即可独立移动的关节数量)的竞品相比,Optimus拥有11个自由度,大大提高了灵活性和操作精度。手部的高自由度也让Optimus能够执行更复杂的任务。
升级后的Optimus在进行电池分类,来源:特斯拉
同时Optimus的稳健性足以应对频繁的物体交互,减少了常规维护的需要。特斯拉对机器人的前庭系统、脚部运动轨迹和地面接触逻辑进行了改进。同时升级了其运动规划器,增加了轻微的躯干和手臂摆动,以及缩短了机器人的循环延迟时间。通过这些技术提升,Optimus在运动时的稳定性和自信度都有了显著的整体提高。
其次是Optimus使用的远程操作软件。操作员通过佩戴VR眼镜和手套来控制机器人,实现了极低延迟的精确控制。这种设置的复杂性在于同时要处理大量的实时视频流和控制信号,确保操作者的动作能即时准确地反映在机器人上。即使是极小的延迟也会显著影响操作的直觉和效率,所以它对减少人机交互中的延迟至关重要。
需要强调的是,Optimus在其控制系统中使用了特斯拉的全自动驾驶(FSD)控制器。FSD提供了高级的视觉处理能力和实时决策制定功能,能让机器人在没有人类直接监督的情况下,自主完成复杂任务。
FSD的关键在于其先进的神经网络,这些网络能够从汽车的摄像头和传感器中收集数据,并将其转化为驾驶指令,如转向、加速和制动。
特斯拉在FSD系统中使用端到端神经网络,从数据输入到驾驶决策的整个过程都是自动完成的,不需要人工编写的代码介入。这种系统不仅能够减少对硬编码规则的依赖,而且能够通过不断学习和适应来改进其性能。
而在FSD系统中使用端到端AI的主要原因之一是其能够显著提高决策的速度和精确度。这种技术通过直接从实际驾驶数据中学习,可以更准确地模拟和预测人类驾驶行为,从而在各种驾驶环境中实现更安全和更有效的驾驶 。
由此可见,特斯拉在机器人上使用FSD技术,主要是为了借助其强大的数据处理和AI决策能力,使机器人在执行任务时更加独立和有效。利用FSD在处理高速、高精度数据流方面的能力,从而实现更流畅和精确的机器人动作控制。
而且FSD在汽车自动驾驶中已经得到了广泛的应用和验证,它的高性能计算能力,完全可以有效支持Optimus机器人的复杂数据处理和实时决策需求。
此外,Optimus的操作系统不仅包括先进的硬件,还涉及复杂的运营管理。一个规模庞大的机器人群体需要多个机器人同时运行以并行收集数据,还需要训练有素的人类承包商全天候轮班操作,以及随时待命的维修团队以确保系统的持续高效运行。Optimus机器人的多样化应用场景从视频中也可以看出,无论是在工厂环境中移动电池,还是在家庭环境中处理洗衣和整理日常物品,Optimus都显示出了极高的适应性和功能性。
升级后Optimus在特斯拉办公室行走,来源:特斯拉
这种广泛的技术整合不仅展示了Optimus作为一个先进机器人平台的能力,也引出了关于人形机器人技术未来发展的重要问题:在面对有限的预算和资源,如何选择能够最大化技能迁移和泛化能力的任务?
虽然远程操作为解决人形机器人问题提供了一种可能的路径,但这种方法的可扩展性受限。未来还需要探索如何在保持操作精度和低延迟的同时,进一步提升机器人的自主性和泛用性。机器学习算法、增强感知系统以及机器人的物理设计都还需要进一步优化。
备受争议的“擎天柱”
自2021年8月,首次在特斯拉AI DAY公开展示概念机Tesla Bot起,Optimus机器人项目可谓是毁誉参半,许多人只当他是马斯克拉投资的噱头。
首次亮相时便有机器人专家指出,Optimus机器人显示的移动能力有限,与波士顿动力等公司的现有人形机器人相比有较大差距。
NASA旗下灵巧机器人团队的负责人肖恩·阿兹米(Shaun Azimi)指出,汽车的自动驾驶并没有人们想象得那么简单,对于人形机器人而言,挑战更大。他强调,在出现意外情况时,机器人的灵活应对能力尤为关键。
同时,美国亚利桑那州立大学的人类系统工程学教授南希·库克(Nancy Cooke)提到,要证明机器人的成功,马斯克需要展示机器人能够执行多样化且非具体指令的行为。仅仅让机器人走动和跳舞,并不能充分展示其能力。
但在一系列的争议中,Optimus也在逐步前进着:
2022年2月,特斯拉推出了人形机器人原型机,标志着从概念走向现实的重要步骤。到了2022年4月,原型机完成了第一次步态行走。
同年9月的第二届AI DAY上,Optimus首次公开演示了直立行走、搬运和洒水等动作。
2023年2月,在Investor Day上通过视频展示了Optimus自由行走和拧螺丝等简单工作。
2023年5月的股东大会,马斯克展示了Optimus的行走、挥手和摇摆动作,并分享了其在汽车工厂中的应用视频。
同年9月,特斯拉在社交平台发布了展示Optimus自我校准、多任务处理、姿态控制及自平衡能力的视频。
2023年底的12月,发布了Optimus Gen-2视频,展示了更灵活的行走和更精细的动作,如二指拿鸡蛋和左右手转移动作,展示了先进的运动和质心控制能力。
Optimus Gen2机器人相比于其前一代,在多个方面有显著提升。Optimus Gen2采用了特斯拉自主设计的致动器和传感器。其中机器人的脖子增加到了2个自由度,使头部运动更加自然;行走速度提高了30%;机器人的重量相比上一代减轻了10千克。
Optimus Gen2还增加了脚力和扭矩感应功能,配备了铰接式的脚趾部分,更好地模仿了人类脚部的几何形状,这样的设计提升了机器人在各种地面上的稳定性和适应性。最引人注目的还是上文提到的,这一代机器人的双手拥有了11个自由度。
三年来,特斯拉Optimus人形机器人实现了从概念雏形到技术突破的蜕变。它在行走速度、自主性和稳定性上的提升,预示着人形机器人将更加灵活、高效,以便进入更多行业提升生产效率,改善人类的生活质量。
一个更加智能、更加人性化的机器人时代,或许很快就要到来。
本文来自微信公众号:甲子光年(ID:jazzyear),作者:苏霍伊,编辑:田思奇