都笨成这样了,这个机器人为什么还是很重要?

在Transformer出现前,这一领域中最热门的模型是RNN。

正如当Transformer的参数量大到一定程度后“智能”突然涌现出来一样,这个机器人不仅能够在从未训练过的场景里行走,还能做出“倒退”这样训练中从没出现过的动作。

这篇论文中,他们同样发现,运用在机器人领域的Transformer,同样具有规模效应。

旧金山的广场、海边、街头,一个无头机器人迈着僵硬的步伐踽踽独行,同时它的手臂也以相同的频率摆动。



视频/Humanoid Locomotion as Next Token Prediction&UC Berkely

这个不起眼的机器人,却引起了Sora团队的注意。

他们一个夸它牛,一个说它把AI带入了现实。

说实话,看到这个机器人的视频时,我的内心是毫无波澜的。虽然这是一个来自著名的加州大学伯克利分校的团队,但这步子僵硬且机械,似乎只能用一种频率和幅度迈开,手臂也是一样,而设计者甚至潦草到不给它装个脑袋。

要知道,隔壁特斯拉的Optimus正在把玩鸡蛋,Figure熟练地倒咖啡,而波士顿动力的ATLAS都开始跑酷了。

那Sora的人到底在吹什么呢?它那蹩脚的步伐里又藏着什么意义?

简单来说,因为加州大学伯克利分校的这篇论文,我们在科幻电影里经常看到的,那个人形机器人与人类共存的时代可能很快就要来了。

01

在他们的论文一开始,我就看到了一个熟悉的名字:Transformer。

我不禁收起了看乐子的心态,开始认真研究起来。

图/论文Humanoid Locomotion as Next Token Prediction

要知道这可是Transformer,搞出了GPT和Sora的Transformer。

不过,Transformer此前都是在搞文本和图像方面的研究,它是怎么用来训练机器人运动的?

要理解这个问题,我们得首先知道机器人是如何运动的。

在机器人领域,通常把这三部分叫做感知层、决策层和执行层。

拿人来类比,感知层就相当于人体的眼睛、鼻子、耳朵、皮肤等一切感官;决策层就相当于大脑和脊髓组成中枢神经系统,负责对接收到的信息综合处理,且对将要执行的动作进行规划。执行层则相当于肌肉和骨骼,完成相应的动作;

人做一个动作是很轻松的。但对机器人而言,不论是从感知到决策,还是从决策到执行,都不是一件容易的事情。

比如简简单单迈一步,我需要根据视觉信息去绘制数字空间,决策层根据数字空间去规划机器人每一部分的运动轨迹,要迈多大的步子,什么样的速度,运动时如何保持平衡等等,然后决策层将这些考虑因素输出成机器人各部位能够执行的指令传递出去。

在以往的机器人设计当中,这部分的指令是需要程序员人工编程的,而且是每一种可能遇到的情况,比如地面软了、地面滑了、前高后低了、前低后高了等等,都需要对每一个关节,每一台电机,重新编程。

程序员可以考虑一万种情况,但一旦出现第一万零一种情况,就需要重新单独编程。

这也是为什么,ATLAS永远活在视频里,并且好几个月才出现一次。因为换个动作,换个环境,它就会歇菜。

但请注意了,开头这个迈着蹩脚步伐,在海边、街道、广场走的无头机器人,它能适应从未见过的新情况,并且只用了27个小时的数据就训练到了目前的程度。

02

为什么Transformer的加入能带来这个变化?

其实它本身的底层逻辑很简单,就是在一段文字之后,不停地接下一个单词,从而形成一整段的文字。

在Transformer出现前,这一领域中最热门的模型是RNN。

RNN在做单词接龙时同样也会考虑到上下文,且它的网络结构比Transformer更加精细,但当它的规模一大,就会出现自身无法解决的系统性问题。

因为当你在接龙时必须考虑到上下文,RNN的上下文信息是像击鼓传花一样,从句子开头传到末尾,当上下文信息没传到句末,就没法接词,所以RNN难做并行运算,计算效率很低。

相比之下,Transformer的上下文信息是计算句末的词与所有词的关系得到,非常直给,也很容易规模化。

当你把规模做到一定程度,比如像GPT-3.5那样的1750亿参数,它就表现出远超RNN的能力,不仅话语通顺,还可以呈现出丰富的知识,很高的逻辑性和情商,跟用户对答如流。

那么伯克利这个团队是怎么用Transformer的呢?

在该团队的论文的摘要中,他们将“现实世界的人形机器人控制问题视为一个预测下一个token的问题”。

简单来说,机器人的运动就像一串文字,下一时刻该怎么动,就类似下一个词语该怎么接。

他们的研究带来了两个巨大的改变:

第一,机器人不再单纯地“模仿”了。

正如当Transformer的参数量大到一定程度后“智能”突然涌现出来一样,这个机器人不仅能够在从未训练过的场景里行走,还能做出“倒退”这样训练中从没出现过的动作。

第二,他们搞定了规模做大的必需品,大规模的训练数据。

他们的训练数据有四大来源:先前的神经网络,基于模型的控制器,运动捕捉,以及油管上的人类视频。

图/论文Humanoid Locomotion as Next Token Prediction

好家伙,直接能把油管视频拿来用了?

他们还真用了,不过不是直接把视频扔进去训练,而是得先把这些视频“洗”一遍,也就是把这些视频里的人抽象成3D数字人,然后再拿去训练。

要知道,同样用了Transformer的GPT,正是用了从网络中提取而来的大规模文本数据,才实现了规模效应,成长为今天这个样子的。

这篇论文中,他们同样发现,运用在机器人领域的Transformer,同样具有规模效应。随着数据量和参数规模的增大,预测的错误率有了明显下降。

而这意味着,当规模大到一定程度,就像GPT-4能翻译,能做题还能写小说一样,机器人不仅能适应全场景,而且能在手、头、腰等多个部分有更加自然的动作。

03

我相信很多人都想象过,人与非常像人的机器人共生的世界。

在那个世界,机器人会代替我们去做任何我们不想干的事儿,养老和单身也再也不会成为问题。另一方面,我们也需要时刻提防机器人可能的“起义”“暴动”。

2024年是智能机器人成为风口的一年。

英伟达的CEO黄仁勋说机器人基础模型可能即将出现,“从那时起,五年后,将看到一些非常令人惊奇的事情”。

开发通用人形机器人的AI机器人公司Figure,2月29日在B轮融资中筹集了6.75亿美元,估值为26亿美元,其投资者包括了微软、OpenAI、英伟达、亚马逊的CEO贝佐斯等多个处于硅谷金字塔尖的玩家。

OpenAI更是直接跟Figure达成合作协议,准备把多模态模型拓展到机器人身上。

这些引领着科技进步的势力在人形机器人上看到了未来。

美国著名的科学哲学家托马斯·库恩在他的著作《科学革命的结构》中提出了“范式转换”一词。当科学的范式发生转换,结果就是科学革命。

2017年,Transformer出现后,横扫了自然语言领域,成为了新的范式,自此AI界发生了巨大变化,如今我们生活中遇到的几乎所有知名AI,包括GPT、Claude、Sora、文心一言、华为的盘古、阿里的通义千问等等,全都采用了Transformer架构。

现在,它要准备征服机器人界了。

那一天,要来了吗?

    

本文来自微信公众号:酷玩实验室(ID:coollabs),作者:酷玩实验室

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年3月13日
Next 2024年3月13日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日