特斯拉不是一家汽车公司。它是一家基于人工智能的机器人公司,至少目前如此。汽车只是它当前最能赚钱的一个产品,人形机器人可能很快就会是下一个。它们只是看起来长得不大一样,驱动它们的内核却是相同的。
特斯拉旗下的人形机器人Optimus(擎天柱),有一双有力而灵巧的手,能仅靠视觉,收拾好胡乱摆放的杂物。家务干累了,它还能休息一下,做一个舒展的瑜伽动作,比如单腿站立。
视频来自:YouTube@Tesla
在最新放出的官方演示视频中,Optimus能将不同颜色的积木,分别放入对应颜色的托盘中。研究人员故意抢先拿走Optimus伸手想拿的积木,它也能稍作调整,成功拿取移动位置后的积木。它还能将不该放倒的积木重新翻正。
给它一个你想要的结果,它就会自动处理三维物理世界扔给你的所有细节。
这全靠端到端(end-to-end)的训练,即“视频进,动作出”,它不需要人类明确编写代码或脚本,来告诉它要怎么做。这套神经网络架构,已经在自动驾驶FSD上测试过,尽管时间并不很久,效果却很好。马斯克很信任它,直播演示过让它载着自己,驶过与他约架的扎克伯格家。
这能解释为什么距离它首次亮相才过去两年,就有如此的进步。去年的AI日上,它还是由几个大汉搀扶着上舞台,和大家打招呼的。今年上半年的投资者日,它已经可以自己走动了。马斯克说,更多的执行器、传感器与整体机械机构的升级还在后头。也许揭晓之日,就在今年的AI日上?
特斯拉没有放出这次视频的更多细节资料,但这不妨碍专业人士对短短一分钟视频内容的“逆向工程”。
英伟达科学家Jim Fan长期关注特斯拉在人工智能领域的进展。他推测,流畅的手部动作几乎可以肯定是通过模仿人类(行为克隆)训练出来的,否则手部姿势就不会那么自然,常常会抖动。
机器人“克隆”人类行为需要的数据,可以有多种收集方式。它们不是互斥的,可以组合应用。Jim Fan认为,特斯拉现在采用的,最有可能的是斯坦福人工智能实验室ALOHA系统用过的“定制远程操作系统”,它可以把小小的电池灵巧地塞进遥控器里。
其他三种方式分别是动作捕捉(MoCap)、计算机视觉与VR模拟。传统的动作捕捉常用于好莱坞电影,演示者戴上CyberGlove,可以实时捕捉运动信号与触觉反馈,然后重新定向到Optimus;计算机视觉可以实现少标注与无手套的数据收集,比如由英伟达的深度摄像头与GPU,将像素转化为精确的运动信号;VR的拓展性更强,演示者甚至可以不亲自到场,就像在玩VR游戏一样。
Jim Fan相信特斯拉端到端的训练,已经用到了多模态的Transformer架构。它包含图像、视频、动作,甚至语言。
动作模态是实现具身智能的关键之一。Optimus需要将连续的运动信号转化为离散的token。这些动作彼此高度依赖,Transformer能根据上一个动作token的输入,来输出下一个动作的token。视觉画面又给了Transformer反馈,让它明白自己是否做到位,是否需要自我纠正。它的系统架构最接近谷歌的RT-1以及英伟达的VIMA。
从长远来看,相比于波士顿动力的机器人的简陋的手部细节,模仿人类五指的Optimus,能够更好地形成人类与机器人之间的直接映射,让训练与反馈更具体。
现在能够限制特斯拉的,已经不是如何编写一段具体的算法的代码,而是收集足够多的人类行为的数据,然后让汽车或者人形机器人,迅速地模仿它、学会它。
乐观地看,这种方法适用于整个物理世界,特斯拉的未来还能继续向更前方延展。
特斯拉以往的解决方式是大规模量产,这次也不会例外。它是世界上唯一能够以平民的价格制造电动汽车,并实现规模化稳定盈利的汽车制造商。而且它的利润很高,高到可以和世界上其他所有汽车厂商打起为期不短的价格战。
特斯拉的前员工Farzad Mesbahi估算了一下,如果机器人确实能像马斯克说的,“在不充电的情况下运行16小时”,相当于2个8小时轮班的人类劳动力,那么它将极大地降低劳动力成本。在美国,5万美元买一台可以干家务的人形机器人,要比为家里雇佣一位保姆一年(按机器人每周80小时的强度计算,需要支付约6万美元)还要便宜。
企业家也会选择雇佣它。一年后,相当于机器人几乎免费打工,还不需要为它缴纳五险一金。
如果真是如此,那么“特斯拉们”的未来将是工厂的工厂,为日益老龄化与追求生活体验的人类社会,源源不断地提供劳动力。
Optimus迅速“蹒跚学步”,证明了未尽研究在《看DAO2023》报告里的前瞻分析:
特斯拉推出的人形机器人原型“擎天柱”(Optimum)的技术内核和特斯拉汽车高度复用,尤其是计算引擎和传感器系统是完全复用,甚至连算法都可以大部分复用。智能电动汽车本质上就是一个四轮机器人。正是由于核心技术的高度通用性,特斯拉才能将成本大幅降低,因为前期的芯片和技术研发成本已经被汽车销售所摊薄,而后期的大量零部件技术和采购则可以与电动汽车共用,再加上不断扩展的制造工厂也可以制造机器人,而且为机器人提供了工作场景。现在的确只有特斯拉有一定条件,可能将人形机器人的价格压到足够商业化的程度。
机器人技术、自动驾驶技术、无人机等技术正在日趋融合在一起,为实现人形机器人的规模化和降低成本展现出一条宽广的大道。实际上,也只有同时具备这几个相关产业的国家,才有条件发展出商用的人形机器人。
无论是造出行动与人一样敏捷的双足机器人,设计出能与人自如对话的虚拟人,还是用外骨骼或者脑机接口实现人体与机器的合体化,人类创造力的本能,是造出造物主造出的东西。人形机器人,2023年将会加快走向商业化。
参考:《中国机器人密度已超美国,人形机器人是下一个制高点》
报告:《看DAO2023》
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究