大家好,我是许华哲,是一个搞AI的。朋友知道我的专业后,经常会问我,你们每天搞的研究好像很高大上,到底什么时候能让AI帮我把生活里的麻烦事都做了啊?
比如说今天又是一个美好的周末,你可能想美美地睡一个懒觉,但是一觉醒来发现昨天吃剩的外卖垃圾忘记扔了,费尽辛劳收拾好后,又发现地上有一些不明液体,于是又要接着去拖地。
当你终于把一切都搞好了,时间已经到了中午。你说我这一周都在加班,不如我给自己做一顿健康餐吧!但是你还要自己洗菜、削皮,甚至切洋葱,这个时候我想很容易问出刚刚那个问题——到底AI什么时候才能帮我们把这些破事都做了?
我帮大家摘抄了一个答案:
“未来3~8年内,通用智能体会出现。”但是这不是我说的,是图灵奖获得者Marvin Minsky说的。他是什么时候说的呢?是在1970年,被《生活》杂志采访的时候说的这句话。
也就是说按照他的说法,只要时光倒退几十年,通用人工智能就出现了,你的问题就被解决了——这当然是不可能的。所以我们看到哪怕是最聪明的人类,都低估了人工智能的实现难度。
当然了,在Marvin Minsky说这句话时,AI正在经历第一波蓬勃发展,我们不妨看看1970年之后,历史上发生了什么?
首先就是一波AI寒冬,十几年没发生啥大事。到了1997年,IBM深蓝可以与人进行国际象棋的对弈了,到了2012年卷积神经网络AlexNet来了,自此我们可以用深度学习的方式对图片进行分类了。
到了2017年,DeepMind在强化学习的加持下,发明了AlphaGo,可以击败人类最好的围棋手李世石。再到了2022年,我想大家都不陌生,最强的对话机器人ChatGPT出现了,我们可以跟它对话,可以向它提问。
现在的AI已经会写诗会填词,会作画会作曲。到了2050年,人工智能肯定会非常强大。
但你可能想说,诶,等一下,确实人工智能发展了,我可以用人脸支付了,还可以让GPT帮我写小作文了……但是怎么感觉AI把我想做的事都做了,而我不想做的事情它也不想做?
这到底怎么回事呢?其实它真正的问题是,什么是智能。
一、AI眼中的困难与简单
我不妨以下面这两个例子来问一问大家,左边是我们刚刚看到的围棋,而右边是我们希望打开这道门并且走过去。大家觉得哪一个更需要智能?
我想大家心里可能都会觉得是围棋。因为当提到它的时候,我们都会联想到“神童”“聪明”“高深”,但就像我们之前说的,它已经被阿尔法狗解决了。
但是让我们看看,“打开门走过去”这项任务,机器人解决得怎么样呢?
机器人们非常整齐划一地选择了同样的解法(doge脸)。这也就让我们意识到,好像这样简单的事情并不容易解决,什么是难的,什么是简单的,我们好像并不是很清楚。这个很伟大的发现叫莫拉维克悖论。
莫拉维克悖论指的是,在人工智能领域,困难的问题是易解的,而简单的问题是难解的。也就是说,有些事情人类看起来很简单,但是对人工智能来说却是很难的。
为什么会这样呢?Marvin Minsky也给了我们一个解释——我们很难意识到自己最为擅长的事情,却更容易意识到我们不擅长却更简单的事情。
比如我问你开门难不难,你说不难,但是这时候如果给你一个六年级的奥数题,你说兄弟你在给我上强度。所以说很多时候,“难”和“简单”是我们一种主观的感觉。到底为什么我们会产生这样的主观感觉呢?
一种解释是从进化的角度来看,我们花了几十亿年的时间变成了猿猴,又花了几千万年的时间从猿猴变成了人类,又花了几百万年的时间从人类发展出语言,最后花了十几万年的时间有了语言的使用、逻辑,甚至后面的音乐、美术等等。
也就是说,如果看这个时间轴的话,我们花了超过99%的时间与这个物理世界去打交道,去熟悉物理世界的运动,而只花了一丁点的时间去研究那些我们认为难的问题。这也许就是为什么我们人类和AI,对困难和简单的定义其实并不相同。
但你可能说我不听我不听,我就是要让你给我倒垃圾,就是让你给我做饭。那也没问题,我们就召唤今天的主角,叫做通用具身人工智能——Embodied AI。
二、我们想要一个怎样的机器人?
什么是通用具身人工智能?首先,它要有一个身体,通常来说是一个机器人,它可以在各种各样的场景里面进行工作,比如卧室里、厨房里等等,而且它在这些场景可以做非常多不同类型的任务。这就是一个最简单的通用具身人工智能的定义。
你可能会问,生活中好像已经有很多机器人了,它们是通用具身人工智能吗?
比如海底捞里有送餐机器人给你上肉片,银行里有机器人做服务,家里面有机器人帮你扫地,它们是通用具身人工智能吗?
直觉告诉你,
它们好像不是,因为它们太菜了。那下面这些厉害的具身智能体是不是我们要的那种机器人呢?
比如说这是OpenAI训练的灵巧手,它能转魔方,
下面这个灵巧手能学老大爷转保定球,来自谷歌和加州大学伯克利分校的研究者。
还有这项研究可以让小机器人在虚拟世界里面翻跟头,同样来自加州大学伯克利分校。
这些是不是我们要的机器人呢?好像也不是,因为他们更像是某个领域的“专家”,都在钻研解决某一个具体的问题。刚才提到这些智能体都不是我们想要的,我们想要的通用具身智能到底是做什么的?
还是回到你家厨房。我们想要的这个机器人,它需要学会怎样去打开窗户,同时也要学会使用烤箱,还要学会走到灶台前按下那个按钮旋转打火,它走到冰箱前可以打开冰箱柜子。
当然了,真正的灾难发生在打开冰箱之后,因为打开冰箱之后,里面会有各种各样的东西,里面有瓶装的液体、半开封的塑料袋、一半腐烂一半光滑的番茄、还有放了一周已经蔫了的蔬菜。
这个机器人需要能够识别并操作这些各种形态的食材,要知道它们并不像规整的棋盘,也不像是一个个完美的样本,而是一个大杂烩。
而这些都是通用具身智能体需要去对付的东西,之前的那些智能体显然是做不到这些事情的。当然了,我可能过度美化你家厨房了,你家厨房也可能是这样的。
没关系,它们也做不到。所以我们的下一个问题是,具身智能体应该怎么样去完成这些任务呢?
其实对这些具身智能体来说,它们最好的老师就是我们人类自己。当我们遇到一个任务的时候,我们首先会调用视觉、触觉、听觉、嗅觉、味觉等等感知模块去感知世界并采集信号。
然后通过我们所了解到的世界模型去进行分析。什么是世界模型呢?就是这个世界的运行规律。它既可以是你推理出如果那坨垃圾再不扔,就会要招来一些不受欢迎的昆虫了,也可以是篮球出手的时候,你通过直觉物理想象出它会抛出一个优雅的抛物线,这些都可以是世界模型。
有了感知,加上脑子里形成的世界模型,我们就可以做出一些决策和一些动作。获得新的感知信号,如此形成了闭环。
那么对于具身智能来说,也可以如此行之,我们不如一个一个看下。首先来看看感知。
三、会捋耳机线的重要性
提到感知大家其实已经并不陌生,比如说当我们提到视觉的时候,机器人的眼睛就是摄像头;当提到听觉的时候,用一个麦克风就可以帮机器人收音。而有了这两个模态,机器人其实已经可以做很多很多事情了。
但是如果我们希望它能够真正通用,能够去做所有的事情,还有一个很重要的模态,就是机器人的触觉。但如果我问在座的各位触觉传感器长什么样,我想很多人会说,我不知道。
这是我们做的一个触觉传感器,叫9D-Tact。
它能摸到什么呢?我们把这个触觉传感器放在桌子上,用一个物体在上面拧来拧去。
触觉传感器就像我们的皮肤一样,可以感受到形状,可以感受到力。这是它真正感知到的触觉信号,
经过算法处理后我们可以发现,红色部分是它摸到的物体形状,是一个五角星。而绿色部分是力的大小和方向,跟手的动作保持一致。
有了这样的触觉传感器,我们把它装在机械手上,装在夹爪上,就能帮助具身智能真正产生细节化的操作能力。
比如有了触觉之后,机器人可以帮我丝滑地捋一根耳机线,并且插在MP4里。
这是来自MIT麻省理工的小例子,是我的朋友少雄做的。他还有另外一个更神奇的小案例,叫SwingBot。它会甩东西,就像我手里可以甩这个遥控器一样。
这个动作其实不简单,因为如果你按得太紧了,它就甩不起来,但如果太松了,它就飞出去了。所以有了触觉,我们就可以做很多更加灵巧更加复杂的任务。
到这里我们知道了触觉是有用的,下一步我们要去研究的是世界模型。因为有了世界模型,我们才能去做决策。
四、包饺子机器人
为了讲清楚世界模型,我想从一次过年讲起。那时我在斯坦福做博士后,我和朋友们一起包饺子庆祝春节。
当然了,其他四个人在认真包饺子,而我在玩手机,因为我包饺子的水平太差了。
很巧的是,当时我们正在实验室做一个捏橡皮泥的项目。因为有了橡皮泥操作的经验,我很快意识到为什么我包饺子不行。因为我对柔性物体,对这种弹塑性面团的世界模型掌握的不行。
虽然我不行,但是我的机器人可以行。那个时候还没有面团,我们很快跑去先拿橡皮泥快速验证了一下,好像是可以捏出一个饺子形状的。
所以我跟我的合作者浩辰说,不如我们一起来真正让机器人学到饺子的世界模型,让它能包饺子吧。它不是工厂里的流水线操作,而是让一个机械臂独立完成包饺子的步骤。
接下来大家可能知道我要说什么了,我在给国际友人讲的时候,这页内容很受欢迎。但是在今天这个场子里,大家都是专家。
因为他们可能对包饺子流程一无所知,所以每一步我都得讲得非常细节。倒水和面、搓成长条、切成小块——在我们东北叫做剂子,然后用擀面杖把这个剂子压扁,擀成皮儿,最后再包馅儿。
整个过程我们人类用到了什么工具呢?
我们用到了手,用了一把刀,用了擀面杖。当然了,最后因为科研难度太大,所以捏褶这一步,我们学习了意大利人使用了这样一个模具,完成包馅的这一步。
接下来,我们就分析如果让一个机器人去包饺子,它会用到哪些工具。上面这一排是我们觉得包饺子机器人可能会用到的工具,于是我们3D打印了这些工具。
有了这样一个工具库之后,我们就开始给机器人造厨房。
白色虚线里的架子把工具架起来,黄色虚线里面的摄像头用来感知中间的物体和机器人的机械臂,以及机械臂使用的工具。最后红色的区域就是机器人大展拳脚的地方,也就是它的案板。
有了这样一个可以施展拳脚的地方,机器人就开始与面团进行快乐互动了。首先,我们让它随机选择各种各样的工具,跟这个面团进行各种各样随机的互动。
从而让机器人自己去了解面团是怎样变化的,了解面团的世界模型。我们采集了这些互动的数据,用于后续的训练。
都要训练什么呢?在训练世界模型之前,我们先要训练出一个工具选择器。当我们给定当前面团的状态,以及目标的状态,比如一个饺子时:
工具分类网络能帮我们从各种各样的工具里面选择最合适的工具进行操作。比如和目标的饺子相比,它现在还太厚了,所以我应该选大擀面杖。
选好了工具之后,我们回到世界模型,这里的世界模型就是面团的状态如何变化。学会世界模型有什么用呢?
我们假设工具已经被选出来,机器人要做的动作是确定的,当我们把当前的面团状态输入到一个神经网络——也就是未来要训练的世界模型中时,这个世界模型可以预测出下一时刻面团的状态。
这就是我们的机器人掌握到的面团的世界模型,一起来看看它的能力。简单来说,它预测得很准。
▲ 世界模型的预测结果
图中红色的是使用的工具,蓝色的是面团形态。上面是我们的预测值,下面是真实值。我们会发现上面和下面长得非常像,这说明我们的世界模型可以准确地捕捉出捏了面团以后它会怎么动。
所以我们只需要调换一下顺序。现在我们给定当前面团的状态,给定要用的工具,以及用世界模型预测出面团未来的状态,那么我们就可以得到机器人的动作是什么。
这样我们就可以学出一个机器人策略网络,让它们知道如何在当前状态使用一个动作去达到未来我们渴望的那个状态。
现在我们终于可以把这套体系完整地连起来。首先是选择工具,是用擀面杖还是其他工具,然后把这个结果输入到刚刚得到的机器人策略里面,机器人策略会给出此时机器人要输出的动作,比如我此刻到底是应该按压还是滚动这个工具。
然后,我就可以看到新的面团状态了,而新的面团状态再通过视觉反馈作为新的感知信息输入到这个闭环里面。这样我们的机器人就可以包饺子了。
下面是这个机器人演示它怎样包饺子。
我们可以看到这个机器人会主动选择自己想要使用的工具去切割,比如说把一个大的面团去切成小份。
比如切成小份之后,会选择用一个小夹子把面团变成更加规整的形状。
当然聪明的观众应该已经发现了,在这个视频中有一只邪恶的手一直在干坏事。他不是我,他是我的合作者浩辰,他一直在给机器人捣乱。
为什么要捣乱呢?因为我们要证明自己的机器人算法是足够鲁棒的,它可以不受外界的影响,它是学习出来的,跟直接写死在里面的代码不一样。
无论你怎么影响它,它总能自己学到怎么样去选择工具,怎么样去应对不同的状态。在这一步的时候,浩辰一下子把整个面团还原成了最初的状态。
所以我们让机器人从头开始包,但它还是可以做得到。
最后我们把它放在捏褶的模具上面,这样一个皮厚馅小的饺子就包出来了。
也许你们会觉得很搞笑,看的时候可能会有这样那样的问题。比如有的朋友可能会问,继续训练下去它会更好吗?
当然是会的,我们整个过程用到的机器人数据只采集了20分钟。如果给它更多数据和更多试错空间,自然可以让饺子皮包得更加完美。
它是天花板吗?我可以说是也不是。对现在市面上用来包饺子的智能体而言,我们做的这个项目是天花板,但是这绝对不是机器人或者具身智能的天花板,比如如果给这个机器人用灵巧手,或者把强化学习的技术加进去,它还有很多很多可以拓展的地方。
五、举一反三的泛化能力
那么回到我们的主题,通用具身智能。包饺子的项目帮我们解决了智能体怎么样自己去完成一个复杂的控制任务,但是通用性的问题还是没有解决。
什么是通用性?当我们训练机器人做了一个任务,然后又让它去做第二个、第三个任务,让它去做很多很多不同的任务,这时候一个新任务出现了。
如果是人类的话,有了前面做任务的经验,很有可能直接就能做,所以我们希望机器人也可以达到这样的水平。因此,我们试图让机器人去找到任务之间的某种普遍联系,从而可以无需额外训练就能直接完成新的任务。
在通用具身智能里面,这叫做泛化。我们再回到包饺子那个情况,因为我们学的世界模型不是对饺子的,而是对整个面团的,所以它可以自然地泛化到其他面团操作中。
比如这个地方我们用同样的模型可以让它去做一个字母曲奇,RoboCook,所以我们就把RoboCook对应的字母捏了出来。
同时因为我们的世界模型用的神经网络,它天然有一些泛化能力,所以它可以泛化到除了面团以外的比如橡皮泥、比如油泥、比如一些泡沫上面。这都是通用具身智能所需要的泛化的能力。
但是泛化远远不止这些,比如这里我给大家举一个例子,展示物体形态和功能之间的联系。听起来好像很抽象,但其实非常简单。
假设这里有两把刀,我们人类只要会使用左边这把刀,自然就会使用右边这把刀,不需要再学一遍,我们的大脑自动就把它们泛化了。
为什么?可能我们知道什么是刀尖,什么是刀身,什么是刀背,我们能找到它们之间的某种对应关系。
所以无论这个刀变大变小变了颜色,还是变了形态或者姿态,我们都可以使用刀。
当然了,这种相似不一定只局限在类内,还可以有更广泛的相似。比如我们知道要想拿住勺子,就要抓在勺柄的部分,那么我就可以推理出,想要拿起网球拍,也要抓住它拍柄的部分。
如果我们看到一个摩托车,知道要去抓它的把手,那么我可以推理出打开家里的门也应该抓住它的把手。
这就是我们人类了不起的泛化能力,而我们想把这样的能力赋给通用具身人工智能。
比如我们让机器人去切豆腐。我们教会它使用一把刀,看看他是不是能够举一反三,会使用所有的刀了。
OK,到目前为止,我们已经可以让AI智能体有感知,有世界模型,从而帮助它去做决策,而且它还可以泛化到新的任务。我们给身体赋予了智能,这就是我们现在定义的具身智能。
但是具身智能仅此而已吗,这是全部吗?当然不是。
有一种理论说,具身其实是可以发展智能的,代表人物有来自于加州大学伯克利分校的Hubert Dreyfus和心理学家Linda Smith,他们认为人类智能的发展,是因为我们身体不停地与外界进行交互。
比如说我们在玩玩具的时候,视觉和触觉一直在彼此反馈,于是在探索这个世界的时候,我们就获得了新的技能新的知识,尤其在婴儿时期。人类的婴儿智力发展极快,他们从什么都不会,到三四岁可能就很懂事了,这可能正是因为孩子在不停跟这个世界去交互。
我们不妨看这样一个例子。这是一个7个月大的小朋友,他非常认真地盯着这个小玩具,但是当它被布盖住的一刻,这个小朋友完全愣了。
他以为玩具没了。他不知道小玩具被布遮住了,以为东西消失了。这是因为7个月大的小朋友是不知道物体永远存在这样一个概念的。
而随后他跟这个世界开始进行互动,他开始进行探索,当他偶尔不小心把这个布掀开,发现可以摸到这个东西,然后就明白了这个东西原来一直在这里。这样的探索帮助到人类去发展智能。
基于这样的想法,我们在机械狗上也做了一个小小的尝试。我们先在仿真器里面训练了一个还可以的机械狗。但是当我们把它实际放到床垫子上跑的时候,跑着跑着就摔倒了。
我们此时的目标就是让他稳稳地在上面走来走去就可以了。于是我们想,那不如给它一些跟世界交互的数据吧。但这个数据是谁的呢?我们先让它看看别人的数据,给它看看和它同一个型号的其他机械狗的数据。
然后我们可以看到,当它有了跟这个世界更多的交互数据之后,通过强化学习的方式,它可以在这个垫子上走得比较稳了。
不过很快我们又给了它新的挑战,希望它能跑得快点,跑道也可以再延长一些。于是我们把俩床垫子拼在一起,让它加速前进,然后它不负众望地又摔倒了。
最后我们说好,现在我让你自己亲身跟这个世界发生交互,跟这个世界进行学习。
于是我们发现,当这只狗亲自与世界交互之后,它不仅可以快速平稳地跨过床垫子,甚至还可以倒退着跑回去。
当然这是一个很简单的例子,但是已经可以告诉我们,身体不仅仅可以承载智能,它也可以帮助我们发展智能。
六、关于未来
最后,我可能想跟大家聊一聊我自己关于通用具身人工智能未来的一些想法,以及现在可能有的困难。
在未来我想越来越通用的具身智能正在加速来到。除了今天提到的这些技术,这些很好玩的东西以外,还有哪些变量?
比如大模型。大家可能都知道ChatGPT就是一种语言大模型,当然了也有其他一些多模态大模型,它可以把视觉和语言融合在一起。这样的大模型可以帮助到我们去理解这个世界,从而让具身智能体变得更加通用。
▲ 谷歌发布的通用具身智能RT-2
举一个自动驾驶里面的例子。如果在一辆汽车后面挂一个自行车,很多时候后面那辆车的自动驾驶模型就崩溃了,因为它会忍不住想刹车,毕竟它平时学到的是——见到自行车就得刹车。
但当前面那个车正在移动时,我们人类就能判读出那个自行车只是挂在上面而已,可是上一代的人工智能是没有办法分辨和解决这种情况的。
不过现在有了大模型的加持后,你可以去问大模型。很多时候大模型就像一个人一样,它可以告诉你,其实这是一种特殊情况,你只需要正常开就行。
第二是硬件成本的降低。像英伟达或者华为都给我们带来了很多很好的计算资源,计算资源的成本降低了。而且机器人的硬件成本也在下降,原来一只机械狗可能要50万人民币,现在一只机械狗,比如我在实验室刚刚买到的这只,可能只要几万人民币。
而且大家如果熟悉一点机器人的话,会知道早期机器人是基于控制论来做的。什么是控制论呢?我搞一个小托盘,上面放一个小乒乓球,无论你怎么推这个小托盘这个乒乓球都不掉。
这就是基于控制论的算法,但是很多时候它没有办法泛化,没有办法解决通用的任务。
但是基于学习的算法不同,它通过深度学习和强化学习的方式,可以很自然地泛化到新的任务上。它可以在遇到新的任务时,用数据迭代让AI学得更好。
所以有了这三方面技术的加持。越来越通用的具身智能一定会加速前进的。但是挑战也仍然存在。
首先是数据少。大语言模型可以把全世界所有的书,互联网上所有的文字数据都薅下来、都爬下来。但是具身智能不一样,你必须要让机器人真正跟物理世界交互,那么它的数据体量势必是没有那么大的。
其次是对泛化要求高,因为就像我们刚刚提到的,我们希望具身智能未来可以看到一个新任务出现,直接就能去完成。而这样很高的要求是比较难以达到的,所以对算法的进展仍然有极大的需求。
还有一点就是试错成本高。什么是试错成本呢?当通用具身智能还不是很好使的时候,比如我在用它包饺子,但是它不小心把我打伤了,或者不小心把我的古董花瓶打碎了。这时候怎么办?我可能就不愿意研发它了。
那么如何有效地降低这样的试错成本呢?是不是我们要开发更多的模拟环境?或者是不是应该把具身智能搞成一个游戏场地,而不是真正放到家里去做初始研究?等等这些问题,都是值得我们去思考的。
最后就是如果我们的通用具身智能真的达到那个临界点,它可能会带来一些伦理问题。因为它太聪明了,它比GPT还聪明,它不光能跟你唠嗑了,它还能把体力活,把所有的事都做了。
那这个时候它到底是谁,我们到底是谁,我们的价值到底在哪儿,这些问题都会遇到不少的挑战。
但是我想说,其实现在的通用具身智能还在它的婴儿阶段,我们需要给它足够的呵护和引导,它最终才可以像我们希望的那样,陪伴我们、帮助我们、服务我们,甚至在人类星辰大海的征途中,成为我们最可靠的伙伴。
最后回到我们的第一个问题,到底什么时候AI才能帮我把这些破事做了?我的答案是:别急,它正在来,它跑着来。
谢谢大家。
参考文献:
[1] Andrychowicz, OpenAI: Marcin, Bowen Baker, Maciek Chociej, Rafal Jozefowicz, Bob McGrew, Jakub Pachocki, Arthur Petron et al. “Learning dexterous in-hand manipulation.” The International Journal of Robotics Research 39, no. 1 (2020): 3-20.
[2] Nagabandi, Anusha, Kurt Konolige, Sergey Levine, and Vikash Kumar. “Deep dynamics models for learning dexterous manipulation.” In Conference on Robot Learning, pp. 1101-1112. PMLR, 2020.
[3] Peng, Xue Bin, Pieter Abbeel, Sergey Levine, and Michiel Van de Panne. “Deepmimic: Example-guided deep reinforcement learning of physics-based character skills.” ACM Transactions On Graphics (TOG) 37, no. 4 (2018): 1-14.
[4] Lin, Changyi, Han Zhang, Jikai Xu, Lei Wu, and Huazhe Xu. “9DTact: A Compact Vision-Based Tactile Sensor for Accurate 3D Shape Reconstruction and Generalizable 6D Force Estimation.” arXiv preprint arXiv:2308.14277 (2023).
[5] She, Yu, Shaoxiong Wang, Siyuan Dong, Neha Sunil, Alberto Rodriguez, and Edward Adelson. “Cable manipulation with a tactile-reactive gripper.” The International Journal of Robotics Research 40, no. 12-14 (2021): 1385-1401.
[6] Wang, Chen, Shaoxiong Wang, Branden Romero, Filipe Veiga, and Edward Adelson. “Swingbot: Learning physical features from in-hand tactile exploration for dynamic swing-up manipulation.” In 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 5633-5640. IEEE, 2020.
[7] Shi, Haochen, Huazhe Xu, Samuel Clarke, Yunzhu Li, and Jiajun Wu. “RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools.” arXiv preprint arXiv:2306.14447 (2023).
[8] Shi, Haochen, Huazhe Xu, Samuel Clarke, Yunzhu Li, and Jiajun Wu. “RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools.” arXiv preprint arXiv:2306.14447 (2023).
[9] Xue, Zhengrong, Zhecheng Yuan, Jiashun Wang, Xueqian Wang, Yang Gao, and Huazhe Xu. “Useek: Unsupervised se (3)-equivariant 3d keypoints for generalizable manipulation.” In 2023 IEEE International Conference on Robotics and Automation (ICRA), pp. 1715-1722. IEEE, 2023.[10] https://www.youtube.com/watch?v=rVqJacvywAQ
[11] Lei, Kun, Zhengmao He, Chenhao Lu, Kaizhe Hu, Yang Gao, and Huazhe Xu. “Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization.” arXiv preprint arXiv:2311.03351 (2023).
本文来自微信公众号:一席 (ID:yixiclub),作者:许华哲(清华大学交叉信息研究院助理教授),策划:Holiday,剪辑:大凯