Optimus的新视频证明，特斯拉不是一家汽车公司

2023年9月26日 09:02 • 未来科技

特斯拉旗下的人形机器人Optimus（擎天柱），有一双有力而灵巧的手，能仅靠视觉，收拾好胡乱摆放的杂物。

Optimus迅速“蹒跚学步”，证明了未尽研究在《看DAO2023》报告里的前瞻分析：

特斯拉推出的人形机器人原型“擎天柱”（Optimum）的技术内核和特斯拉汽车高度复用，尤其是计算引擎和传感器系统是完全复用，甚至连算法都可以大部分复用。

特斯拉不是一家汽车公司。它是一家基于人工智能的机器人公司，至少目前如此。汽车只是它当前最能赚钱的一个产品，人形机器人可能很快就会是下一个。它们只是看起来长得不大一样，驱动它们的内核却是相同的。

特斯拉旗下的人形机器人Optimus（擎天柱），有一双有力而灵巧的手，能仅靠视觉，收拾好胡乱摆放的杂物。家务干累了，它还能休息一下，做一个舒展的瑜伽动作，比如单腿站立。

视频来自：YouTube@Tesla

在最新放出的官方演示视频中，Optimus能将不同颜色的积木，分别放入对应颜色的托盘中。研究人员故意抢先拿走Optimus伸手想拿的积木，它也能稍作调整，成功拿取移动位置后的积木。它还能将不该放倒的积木重新翻正。

给它一个你想要的结果，它就会自动处理三维物理世界扔给你的所有细节。

这全靠端到端（end-to-end）的训练，即“视频进，动作出”，它不需要人类明确编写代码或脚本，来告诉它要怎么做。这套神经网络架构，已经在自动驾驶FSD上测试过，尽管时间并不很久，效果却很好。马斯克很信任它，直播演示过让它载着自己，驶过与他约架的扎克伯格家。

这能解释为什么距离它首次亮相才过去两年，就有如此的进步。去年的AI日上，它还是由几个大汉搀扶着上舞台，和大家打招呼的。今年上半年的投资者日，它已经可以自己走动了。马斯克说，更多的执行器、传感器与整体机械机构的升级还在后头。也许揭晓之日，就在今年的AI日上？

特斯拉没有放出这次视频的更多细节资料，但这不妨碍专业人士对短短一分钟视频内容的“逆向工程”。

英伟达科学家Jim Fan长期关注特斯拉在人工智能领域的进展。他推测，流畅的手部动作几乎可以肯定是通过模仿人类（行为克隆）训练出来的，否则手部姿势就不会那么自然，常常会抖动。

机器人“克隆”人类行为需要的数据，可以有多种收集方式。它们不是互斥的，可以组合应用。Jim Fan认为，特斯拉现在采用的，最有可能的是斯坦福人工智能实验室ALOHA系统用过的“定制远程操作系统”，它可以把小小的电池灵巧地塞进遥控器里。

其他三种方式分别是动作捕捉（MoCap）、计算机视觉与VR模拟。传统的动作捕捉常用于好莱坞电影，演示者戴上CyberGlove，可以实时捕捉运动信号与触觉反馈，然后重新定向到Optimus；计算机视觉可以实现少标注与无手套的数据收集，比如由英伟达的深度摄像头与GPU，将像素转化为精确的运动信号；VR的拓展性更强，演示者甚至可以不亲自到场，就像在玩VR游戏一样。

Jim Fan相信特斯拉端到端的训练，已经用到了多模态的Transformer架构。它包含图像、视频、动作，甚至语言。

动作模态是实现具身智能的关键之一。Optimus需要将连续的运动信号转化为离散的token。这些动作彼此高度依赖，Transformer能根据上一个动作token的输入，来输出下一个动作的token。视觉画面又给了Transformer反馈，让它明白自己是否做到位，是否需要自我纠正。它的系统架构最接近谷歌的RT-1以及英伟达的VIMA。

从长远来看，相比于波士顿动力的机器人的简陋的手部细节，模仿人类五指的Optimus，能够更好地形成人类与机器人之间的直接映射，让训练与反馈更具体。

现在能够限制特斯拉的，已经不是如何编写一段具体的算法的代码，而是收集足够多的人类行为的数据，然后让汽车或者人形机器人，迅速地模仿它、学会它。

乐观地看，这种方法适用于整个物理世界，特斯拉的未来还能继续向更前方延展。

特斯拉以往的解决方式是大规模量产，这次也不会例外。它是世界上唯一能够以平民的价格制造电动汽车，并实现规模化稳定盈利的汽车制造商。而且它的利润很高，高到可以和世界上其他所有汽车厂商打起为期不短的价格战。

特斯拉的前员工Farzad Mesbahi估算了一下，如果机器人确实能像马斯克说的，“在不充电的情况下运行16小时”，相当于2个8小时轮班的人类劳动力，那么它将极大地降低劳动力成本。在美国，5万美元买一台可以干家务的人形机器人，要比为家里雇佣一位保姆一年（按机器人每周80小时的强度计算，需要支付约6万美元）还要便宜。

企业家也会选择雇佣它。一年后，相当于机器人几乎免费打工，还不需要为它缴纳五险一金。

如果真是如此，那么“特斯拉们”的未来将是工厂的工厂，为日益老龄化与追求生活体验的人类社会，源源不断地提供劳动力。

Optimus迅速“蹒跚学步”，证明了未尽研究在《看DAO2023》报告里的前瞻分析：

特斯拉推出的人形机器人原型“擎天柱”（Optimum）的技术内核和特斯拉汽车高度复用，尤其是计算引擎和传感器系统是完全复用，甚至连算法都可以大部分复用。智能电动汽车本质上就是一个四轮机器人。正是由于核心技术的高度通用性，特斯拉才能将成本大幅降低，因为前期的芯片和技术研发成本已经被汽车销售所摊薄，而后期的大量零部件技术和采购则可以与电动汽车共用，再加上不断扩展的制造工厂也可以制造机器人，而且为机器人提供了工作场景。现在的确只有特斯拉有一定条件，可能将人形机器人的价格压到足够商业化的程度。

机器人技术、自动驾驶技术、无人机等技术正在日趋融合在一起，为实现人形机器人的规模化和降低成本展现出一条宽广的大道。实际上，也只有同时具备这几个相关产业的国家，才有条件发展出商用的人形机器人。

无论是造出行动与人一样敏捷的双足机器人，设计出能与人自如对话的虚拟人，还是用外骨骼或者脑机接口实现人体与机器的合体化，人类创造力的本能，是造出造物主造出的东西。人形机器人，2023年将会加快走向商业化。

参考：《中国机器人密度已超美国，人形机器人是下一个制高点》

报告：《看DAO2023》

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

洁柔致信感谢取消10元6箱订单顾客：就像一道微光

Previous 2023年9月26日

重估淘宝，从复购开始

Next 2023年9月26日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

Optimus的新视频证明，特斯拉不是一家汽车公司

相关推荐