2021年,马斯克杀死了波士顿动力

Atlas表演后空翻,2017年

然而,就在波士顿动力风头正盛的2017年,投资了五年之久的谷歌却将其甩卖。

因此,Transformer的推出直接开启了今天的大模型时代,2018年6月,OpenAI推出了基于Transformer模型的GPT-1,GPT里的“T”,就是Transformer的首字母。

Transformer的出现彻底改变了机器人的技术路径,在感知-决策-执行的完整链条中,核心能力不再是驱动机器人后空翻大劈叉的机械结构,而是组成机器人大脑的软件算法。

2021年的特斯拉AI Day,特斯拉PPT首发了人形机器人Tesla Bot的概念机设计方案。按照马斯克画的大饼,Tesla Bot可以完全代替人类“从事重复性/无聊的工作”。

也许是担心在场观众干看PPT无聊,马斯克请来了一位身着紧身衣的皮套人,模仿Tesla Bot尬舞了一段。

AI Day结束,科技媒体The Verge表示,马斯克的Tesla Bot就是个笑话[1]。文章还援引中央兰开夏大学机器人工程教授Carl Berry的评价:说它是马粪都算抬举它了(horse shit sounds generous, frankly)

Carl Berry还专门搬出机器人领域的网红公司波士顿动力,认为后者正在踏踏实实做事,而特斯拉在加深公众对机器人不切实际的幻想。

今年4月,特斯拉的皮套人尬舞再度被拉出来鞭尸。在波士顿动力展示新款机器人的视频中,机器人以一种灵活到有些诡异的方式从地上站起来。

波士顿动力也在推特上阴阳怪气了一句:“我们保证这不是一个穿着紧身衣的人。”

事情的起因是,波士顿动力宣布11岁“高龄”的人形机器人Atlas正式退休——Atlas算得上是初代机器人网红,它被波士顿动力员工一棍子撂倒,接着踉踉跄跄爬起来的视频,一度引发了“停止霸凌机器人”的后现代哲学思考。

结果Atlas领退休金的第一天,“焕新版”Atlas正式出道。最大的变化是,波士顿动力抛弃了原有的液压结构,改为电机驱动。

目前,“焕新版”Atlas的宣传片已经在YouTube上收获了500多万播放量。

相比Atlas熟悉的后空翻大劈叉,相较之下,去年年底的第二代Tesla Bot才刚学会缓慢行走和90度深蹲。

加上马斯克近几年大饼画得太多,也不难理解The Verge会提出“机器人为什么要像人”的质疑。

然而,可能恰恰是2021年PPT上的Tesla Bot和滑稽的皮套人尬舞,决定了波士顿动力的命运。

谷歌发现了什么?

相比荒诞开场的Tesla Bot,波士顿动力这家公司是机器人领域根正苗红的祖师爷。

波士顿动力成立于1992年,前身是麻省理工学院的腿部实验室,长期致力于有腿机器人的研究。

2012年,DARPA(美国国防高级研究计划局)为了推动机器人研究,资助了一场机器人挑战赛,波士顿动力由此进入美国军方的视野。

DARPA是五角大楼旗下的研究机构,和NASA一起诞生于美苏争霸的白热化时期,目的是借助国家意志确保美国在高科技领域的领先。只不过NASA负责地球以外,DARPA负责地球以内。过去几十年间,DARPA直接或间接地推动了GPS、互联网等技术的诞生。

2012年,正值DARPA在机器人、自动驾驶等领域大力投资,为了降低参赛门槛,DARPA希望能有一款标准化的人形机器人,供参赛团队编程。

在这之前,波士顿动力已经为DARPA开发了多款产品,比如外型神似野猪的LS3,能够穿梭于各种极端战场环境,快速运送物资。

2013年7月,在DARPA的资助下,波士顿动力打造出了身高1.88米,重达150千克的初代Atlas。这个新闻很快传到了谷歌的耳朵里,波士顿动力的命运随之改变。

当时,谷歌正在秘密筹备一个代号为“Replicant(复制人)”的机器人项目,由“安卓之父”安迪·鲁宾亲自带队。按照鲁宾的设想,谷歌将打造一个编程平台,从而推动机器人普及,最终在机器人身上复刻安卓系统的成功[3]

为了这个庞大的计划,谷歌疯狂扫货,一口气收购了九家机器人初创公司,Atlas问世不到半年,波士顿动力就被谷歌收入囊中。此后,Atlas的迭代速度也坐上了火箭。

2016年,波士顿动力毫无征兆地发布了一则新款Atlas的演示视频,视频中Atlas熟练地行走跳跃,尤其是被推倒在地后,仍能自主起身继续完成工作,整个过程栩栩如生,带给公众的震撼不亚于2022年底ChatGPT的问世。

目前,这条视频的Youtube播放量已经积累到了4059万。2017年,Atlas再接再厉,用一个精彩的后空翻再度把波士顿动力送上全球热搜。

Atlas表演后空翻,2017年

然而,就在波士顿动力风头正盛的2017年,投资了五年之久的谷歌却将其甩卖。按照彭博的说法,谷歌管理层的核心分歧在于商业化。

波士顿动力希望埋头研究,但谷歌希望尽快打造能商业化的产品:“我们不可能用30%的资源去投入一个需要10年以上的项目[4]。”

在彭博的报道中,丰田和亚马逊都是潜在的买家,但波士顿动力最终被卖给了软银,2020年又被卖给了韩国现代。

谷歌内部,安迪·鲁宾因性丑闻被扫地出门,Replicant项目也草草收场,划上一个满是遗憾的句号。

一家明星公司在当打之年被潦草脱手,谷歌内部真实的决策过程难以知晓。但在这个过程中起到决定性作用的,很可能是2017年发生在谷歌内部的另一件事。

我来组成头部

2017年6月,谷歌的8位AI科学家联名发表了一篇名为Attention Is All You Need的论文。这是继2012年AlexNet勇夺ImageNet挑战赛冠军之后,人工智能发展史上的又一个里程碑事件。

谷歌的科学家在论文里提出了一种“注意力机制”,并基于此开发一个名叫Transformer的深度学习模型,解决了传统RNN模型的一系列问题。

2020年,谷歌又提出了Vision Transformer(ViT)概念,赋予了Transformer处理图像的能力。

随着Transformer一口气解决了众多缺陷,它渐渐发展成了AGI领域的唯一解。

2012年的AlexNet让AI有了“感知”的能力,而Transformer和之后的大模型让AI有了“生成”的能力。换句话说,2012年的AI可以识别出各种各样的猫,2017年之后的AI已经可以自己生成猫的图片了。

因此,Transformer的推出直接开启了今天的大模型时代,2018年6月,OpenAI推出了基于Transformer模型的GPT-1,GPT里的“T”,就是Transformer的首字母。此后,OpenAI沿着这条路线持续迭代,并基于GPT模型开发了ChatGPT。

在大模型百花齐放的同时,Transformer也为人形机器人的进步打开了一扇窗户。

传统机器人大多基于特定的规划执行特定的操作,比如运输、分拣,不具备感知和决策能力。人形机器人不仅能与物理世界交互,还有感知和理解能力。

举一个不太恰当但好理解的例子:送餐机器人执行“把外卖送到1203号房”这个任务时,并不理解什么是“外卖”和“1203号房”,只是根据软件系统既定的指令和路线规划完成任务。

但人形机器人可以借由智能化,理解物理世界各种物体、语言和文字的含义,并自主规划和决策。也就是说,机器人可以不依赖预先的编程,就能完成诸如“关掉最上层抽屉”等较为模糊的指令。

波士顿动力的问题在于,无论Atlas的机械与动力结构多么优秀,都无法解决“穷举法”的问题。

Atlas的软件原理是通过摄像头与传感器输入外界环境数据,再根据提前创建的行为库,执行对应的动作。在其官方的文档里,波士顿动力坦诚了这么做的弊端:“如果盒子向一侧移动了0.5米,那么Atlas会找到并完成跳跃;如果盒子移动得太远,那么系统将停止[5]。”

由于Atlas的所有动作都依赖提前设计的模版,那么,真实环境的一点点变化,都可能让机器人无所适从。这也是为什么传统机器人只被用于环境、路线和职能极度固定的工厂、酒店送餐等场景。

而Transformer带来的思路是,只要让机器学习足够多的数据,就能拥有类人的智能,可以脱离预设的规划进行自主决策。

去年7月《纽约时报》探班谷歌实验室, 完整记录了基于RT-2模型的机器人智能闪现的瞬间:桌子上放着一堆塑料玩具,工程师让单臂机器人“捡起灭绝的动物”,机器人拿起了恐龙。

这意味着机器人不仅能识别三种动物,也能理解“灭绝的动物”的含义,还可以完成具体的操作。

Transformer的出现彻底改变了机器人的技术路径,在感知-决策-执行的完整链条中,核心能力不再是驱动机器人后空翻大劈叉的机械结构,而是组成机器人大脑的软件算法。

人工智能的进步在各行各业上演着软件对硬件的夺权,机器人只是其中之一。

另一个正在由软件定义的行业是自动驾驶,这也是为什么马斯克会说:当你能解决自动驾驶,你就能解决现实世界中的人工智能。

特斯拉的三张牌

特斯拉在AI世界的出场,常常呈现某种荒诞不经的色彩。

2022年特斯拉备受期待的Tesla Bot第一次“真人”亮相,居然要依靠三名壮汉搀扶。两个月后ChatGPT横空出世,Tesla Bot成了一块无人问津的背景板。

然而,特斯拉在机器人领域的积累,可能比任何一家公司都要深厚。

自动驾驶本质上是机器人的一个“前置产业”,两者的核心都是基于人工智能,实现感知-决策-执行的完整链条。

这就意味着无论是软件层面的算法,还是硬件层面的视觉传感器、FSD芯片等零部件,理论上都可以用于人形机器人。

特斯拉也的确是这么做的:Tesla Bot共配置有3颗摄像头,左右眼各一个,外加一颗鱼眼广角。芯片是和特斯拉电动车一模一样的FSD自动驾驶芯片。软件上,Tesla Bot也承袭了自动驾驶的技术方案。

2023年特斯拉股东大会,马斯克也确认了这一点:特斯拉已经打通了自动驾驶芯片FSD和机器人的底层模块,实现了一定程度的算法复用。

任何人工智能的发展都需要算法、算力、数据三驾马车来拉动,算法决定了计算机用什么方式识别事物;但算法又需要足够大的算力来驱动;同时,算法的提升又需要大规模高质量的数据;三者相辅相成,缺一不可。

算法和算力层面,特斯拉已经借助电动车业务,完成了从云端(D1)到终端(FSD),核心软硬件的自研。

数据层面,2022年的AI Day上,特斯拉宣称已经存储的有价值训练数据集有23.2万帧,验证数据集0.38万帧。上百万车主正在源源不断地为算法训练贡献着数据。

马斯克本人在AI领域的涉足也常被忽略,他是OpenAI的创始人之一,也是DeepMind的早期投资人。他参与的人工智能公司还有脑机芯片Neuralink、聊天机器人Grok。特斯拉每天接受并处理的视频画面超过1600亿帧,这很可能是商业公司能拥有的最大的真实世界数据集。

波士顿动力很可能意识到了这个问题,但“焕新版”Atlas最大的改变,是从液压改为全电动,最大的好处可能是降低成本。

在一次采访中,创始人Marc Raibert曾表示Atlas在一定程度上激励了马斯克制造Tesla Bot的想法。但在人工智能残酷的竞争中,波士顿动力已经落后太多。

波士顿动力的问题在于,他们用了20年的时间试图教会机器人如何“运动”,但实际上,机器人应该先学会“思考”。

或许在不久的将来,判断机器人的智能化程度,可能不是看它会不会后空翻大劈叉,而是能不能从九张图片中选出包含红绿灯或摩托车的图片,或者滑动滑块使图片位于正确的角度。

参考资料

[1] Don’t overthink it: Elon Musk’s Tesla Bot is a joke,The Verge

[2] Modest Debut of Atlas May Foreshadow Age of ‘Robo Sapiens’,The NewYorker Times

[3] Google’s Andy Rubin Pursues ‘Replicant’ Robots,The Information

[4] Google Puts Boston Dynamics Up for Sale in Robotics Retreat,bloomberg

[5] Flipping the Script with Atlas,Boston Dynamics

[6] Elon Musk was likely inspired by Boston Dynamics’ humanoid robot, its founder says,Businessinsider

本文来自微信公众号:远川科技评论 (ID:kechuangych),作者:叶子凌,编辑:李墨天

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年5月8日
下一篇 2024年5月8日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日