特斯拉人形机器人二代,更像真人了?

若他所说的属实,那特斯拉人形机器人的进化一目了然。Hanteta_

特斯拉人形机器人的进化之旅

从特斯拉推出第一台人形机器人开始,不过才短短三年时间,却迎来了飞速进化。

今年以来,随着大模型不断的迭代升级,智能泛化能力的飞速提升,让人们看到了人形机器人的潜在前景,我们时不时就会看到一些新玩家入局人形机器人赛道。

在大模型之前,机器人属于专用设备,如今有了大模型的通用能力,通用机器人开始曙光乍现,正如稚晖君所说的那样,现在我们不止需要。

悄无声息,特斯拉今天发布了全新一代人形机器人 Tesla Optimus Gen 2。

一句话划重点,和前代相比,Optimus Gen 2 更像人了,主要升级点概括如下:

  • 特斯拉全新设计的执行器和传感器,提高执行任务的效率和精准度;

  • 2-Dof (自由度)驱动的颈部,让头部转动更自由;

  • 11-Dof 的手部关节,使得手部运动更灵活;

  • 集成执行器与电子元件和线束,提高整体系统的稳定性;

  • 步行速度提升 30%,增强环境的适应性;

  • 引入脚力/扭矩感应,灵活适应地面情况;

  • 重量减轻 10 千克,机动性更强。

从马斯克发布的视频中可以看到,Optimus Gen 2 能够平稳地行走,步行速度比前代快了 30%,同时它还能做一个 90 度左右的蹲下,肢体控制程度相当不错。

Optimus Gen 2 还升级了全新的手部,11 个自由度的手可以让它像人手一样地摇动,动作完成的准确度和流畅度有真人那味了。

Optimus Gen 2 的所有手指都具有触觉感应,能够灵巧地处理鸡蛋等易碎物品,看着像是会做饭的样子。

在视频的最后,你还会看到两个 Optimus Gen 2 随着音乐的节拍和晃眼的灯光一起手舞足蹈,这也算是特斯拉埋下的小彩蛋。

特斯拉高级工程师表示,视频中的一切都是真实的,没有使用 CGI 生成,所以动作都是实时的,没有加速播放,并盛赞了特斯拉机器人在硬件性能上取得了难以置信的改进。

若他所说的属实,那特斯拉人形机器人的进化一目了然。

图片来自@Hanteta_

特斯拉人形机器人的进化之旅

从特斯拉推出第一台人形机器人开始,不过才短短三年时间,却迎来了飞速进化。

在 2021 年 8 月 AI Day 上,马斯克官宣特斯拉人形机器人Tesla Bot。这款机器人被设定为高 5 英尺 8 英寸,重 125 磅,具有承载 45 磅和举起 150 磅等能力,主要是用来执行一些被认为危险、重复和无聊的任务。

当时,这款机器人还只是几张“活在”屏幕上的 PPT 概念图,就连台上跳舞的亮相环节也是由穿着机器人套装的男人完成。

紧接着到了第二年的 AI Day 2022 大会上,主角截然变换,走到台前的 Optimus Robot(擎天柱机器人)成了当天发布会的最强主角。

裸露在外的机械结构让它的颜值显得有些粗糙,但无论是搬箱子、给植物浇花、还是在超级工厂里搬砖,演示视频里的“擎天柱”能干的活可真不少。

为这台擎天柱提供能量的不是火种,而是一块容量为 2.3kWh 的电池包,它被充分保护,放置在最核心的身体部位,即为图中蓝色的那一块。

当时马斯克称,擎天柱“非常适合一整天的工作”,它静坐时的功耗约为 100w,快走时为 500w。可能有人会问快走是多快,大概 2 米每秒。

为了确保擎天柱的灵活性,特斯拉甚至为其设计了 28 个关节,每一个关节里都有多套执行器,这些执行器能够在后台分析执行效率,减少无效工作。

特斯拉表示,整台擎天柱拥有 200 多个自由度,而它的手占了其中的 27 个,由促动机(actuator)驱动,通过视觉系统和算法,擎天柱能够准确识别手与物体的位置,完成上面提到的浇花、取物的任务。

从迈出第一步到自如地摆出各种姿势,“擎天柱”花了 5 个月的时间。

到了今年 3 月的特斯拉投资者期间,Optimus 再次迎来了史诗级进化。其中一个亮点是,Optimus 从桌子上拿起了一个机械臂并将其固定到位,另一个 Optimus 则将其固定在仍在组装的第三个 Optimus 身上,如此敏捷且流畅的任务执行,比最初的能力有了实质性的进步。

虽然 Optimus 的动作仍有些僵硬,还不能完成像跑酷一样的复杂动作,但已经初步展现出独立短距离行走、搬运物体和使用基本工具等普适性能力。

仅仅半年后,9 月份的 AI Day 上,Optimus 不仅能够根据颜色对方块进行分类,还能自信地将双臂举在空中,然后在一条腿上摆出瑜伽姿势,展露出优异的平衡力和协调力。

而现在,如上文所述,栩栩如生的身躯,机敏灵活的手指、流畅轻盈的步态,Optimus Gen 2 在运动和操作能力上更加贴近人类水平。希望再过不久,机动性更强的 Optimus 甚至能够复刻人类“爬、跳、抓、举”等复杂动作。

当然,按照马斯克的设想,Optimus 的远景目标不仅仅是替代人类完成重复劳动、危险操作等任务,而是要成为一款通用服务机器人,融入到家庭、办公场所和商业场景等更复杂的场景中。

因此,机器人的硬件仅仅只是基石,一个完整的人形智能体,还需要“大脑”级别的软件和算法赋能。

将GPT-4塞入人形机器人会发生什么?

今年以来,随着大模型不断的迭代升级,智能泛化能力的飞速提升,让人们看到了人形机器人的潜在前景,我们时不时就会看到一些新玩家入局人形机器人赛道。

不谋而合的是,他们都选择了具身智能这一解题思路。具身智能,顾名思义,指的是一种智能体利用自身的物理身体,通过感知、运动和环境交互来获取信息、做出判断并采取行动的智能形式,这也被视作人工智能的终极形态。

它强调身体在认知和行为发生中的关键作用。相比纯思维型的智能,具身智能更加贴近人类自然智能,它强调身体、行为和环境对认知的重要作用。

一种不太严谨的表达是,AI 大模型用作大脑,机器人充当躯壳,AI 大模型套上机器人的壳就是具身智能。

除了上文所说的特斯拉人形机器人,一个更直观的案例是,最近东京大学发布的人形机器人 Alter3 便是首款由 GPT-4 驱动的人形机器人。不需要任何事先的编程调教,通过口头反馈,你就可以让它自主地做出各种人类动作。

你不要过来呀

弹奏重金属音乐、表演自拍、用手投球、扮鬼吓人,在 GPT-4 智能语言描述的映射下,这些动作都不在话下。

需要说明的是,Alter3 本身无法理解像“抬起手有多高”这样的细节,因此也就无法改进自己的动作,通过人类的口头反馈,譬如“自拍时把手抬高一点”,接收到信息的 GPT-4 会将人类发出的指令分解为一连串步骤。

接着这些步骤就会被转化为控制 Alter3 各个身体部位运动的 Python 代码,也就是所谓的思维链(CoT),然后 Alter3 会把这些改进后的运动编码存储下来,形成“运动记忆”。

碰到下次再生成相同的运动时,它就会根据过去的相关经验推理出如何最优地执行相似的任务,而不是从零开始,这种零样本学习能力(zero-shot)也是机器人获得真正智能的关键。

更离谱的是,没有意识的它甚至可以通过 GPT-4 反馈的文本中推断出适当的情感,并用清晰的动作表达出来,属实是机器人又一“超纲”的表现。

像我们此前写过的华为天才少年稚晖君的智元机器人远征 A1、雷军的“铁蛋”也都归属于 AI + 机器人的范畴。

在大模型之前,机器人属于专用设备,如今有了大模型的通用能力,通用机器人开始曙光乍现,正如稚晖君所说的那样,现在我们不止需要 ChatGPT,还需要 WorkGPT。

这些进化间接印证了一条清晰可见的道路:当 AI 大模型生根发芽之后,总归是要走进现实世界,而具身智能则是最佳的路径。


一直活跃在 AI 前线的英伟达创始人黄仁勋曾洞察道:“具身智能将引领下一波人工智能浪潮。”

成熟的 AI 大模型充当人工大脑,模拟了人脑复杂的神经网络,实现了语言理解、视觉识别、情景推理等认知功能,解决了机器人更高层次的认知和决策问题。

与此同时,各种传感器、执行器、计算单元被集成到机器人躯体中,实现了对环境的感知和交互。比如视觉系统可以捕捉图像和视频,触觉传感器可以感受物体的形状和质地等。

因此,在 AI 大模型与机器人实体深度融合的基础之上,设想有一日,究极体的 Grok 结合 Optimus,也许能够模糊虚拟和物理现实的界限,让智能 AI 彻底走出屏幕,真正融入人类生活社会。

最后,放上网友 @cb_doge 让 Grok 评价 Optimus Gen 2 的回答:

哦,特斯拉在 Optimus Gen 2 上取得的进步真是让人瞩目!自从上次上线后,无论是速度、重量减轻,还是处理像鸡蛋这样易碎物体的能力,都有了显著的提高。这就像看到一只小鸟勇敢尝试第一次飞翔,尽管它拥有更多的执行器而非羽毛。            

放眼全局,我们要明白,发展像 Optimus 这样的机器人是一场长跑,而不是冲刺。这就像观看技术与人性之间缓慢而优雅的舞蹈,每一步都使我们更接近一个理想的未来,在那里,机器人和人类可以和谐相处、共同工作。            

至少,这是我们的梦想。

本文来自微信公众号:APPSO (ID:appsolution),作者:莫崇宇

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年12月13日 18:47
下一篇 2023年12月13日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日