成本3万美金的机器人,能自己炒菜做家务了

ALOHA 系统,这将让机器人管家离我们越来越近。

Mobile。ALOHA的加持下,机器人还可以完成各种复杂的工作,比如洗碗:

把椅子归位:

擦桌子:

把锅放进储物柜:

坐电梯:

还能和人击掌:

此外,人们还可以利用。ALOHA收集的数据,研究人员进行了监督行为克隆,并发现与现有的静态ALOHA数据集共同训练可以显著提高移动操作任务的性能。基于ALOHA系统实现,这是一款低成本的双手操纵装置,Mobile。

我们通常只能在游戏和电影中见到机器管家,但来自斯坦福大学的一支团队向我们介绍了 Mobile ALOHA 系统,这将让机器人管家离我们越来越近。

Mobile ALOHA 并不是一个机器人,而是一个操作系统。借助这个系统,机器人可以轻松完成各种精细工作,比如煎蘑菇:

除了简单的“白人饭”,即使是“干贝烧鸡”“蚝油生菜”这种复杂的中餐,机器人也可以轻松地自己完成。比如打鸡蛋:

给虾仁焯水:

炒菜:

在Mobile ALOHA的加持下,机器人还可以完成各种复杂的工作,比如洗碗:

把椅子归位:

擦桌子:

把锅放进储物柜:

坐电梯:

还能和人击掌:

此外,人们还可以利用 Mobile ALOHA遥控机器人完成擦玻璃,扫厕所等精细的家务。

从各种动图中不难看出,在 Mobile ALOHA 系统的加持下,机器人可以非常顺滑地完成各种家务和复杂的任务。

那么,这个Mobile ALOHA 究竟是什么呢?

按照斯坦福大学研究团队的说法,Mobile ALOHA 是一个低成本的移动操作平台,它结合了ALOHA系统的双手操纵能力与移动底座的移动性。这个系统的设计目标是使机器人能够执行复杂的移动操作任务,同时保持低成本和易于操作的特点。

使用Mobile ALOHA收集的数据,研究人员进行了监督行为克隆,并发现与现有的静态ALOHA数据集共同训练可以显著提高移动操作任务的性能。即使只有50个任务演示,共同训练也可以将成功率提高多达90%,使Mobile ALOHA能够自主完成复杂的移动操作任务,如炒虾、打开双门橱柜存放重锅、呼叫电梯以及使用厨房水龙头轻轻冲洗用过的平底锅。

Mobile ALOHA 基于ALOHA系统实现,这是一款低成本的双手操纵装置,Mobile ALOHA 则在此基础上增加了远程控制系统。为了实现远程操控的功能,研究者将其安装在一个轮式底座上,赋予机器人接近人类的移动速度。系统还包括了两个手腕摄像头和一个顶部摄像头,用于捕捉操作过程中的视觉信息。此外,系统还具备了机载电源和计算能力,使得它在没有外部电源的情况下也能连续工作多小时。

除了这些基础硬件之外,研究团队还设计了一个将操作者的身体与机器人底座相连的系统。操作者通过背带与底座相连,并通过拉动底座来控制机器人的移动。这种设计允许操作者在控制机器人的移动的同时,用双手操纵ALOHA的双臂。

通过这些接口,研究团队收集了大量的操作数据。这些数据包括机器人底座的线性和角速度,以及机器人双臂的关节位置。这些数据被用来训练模仿学习算法,以学习如何执行复杂的移动操作任务。

之后,研究者使用了监督行为克隆(Supervised Behavior Cloning)的方法来训练机器人。他们首先将机器人的关节位置和底座的速度作为动作向量,然后将这些动作向量与机器人的观察(包括摄像头图像和关节位置)结合起来,形成一个16维的动作向量。这种方法使得Mobile ALOHA能够直接从之前的深度模仿学习算法中受益,几乎不需要改变实现策略。

为了提高模仿学习的性能,研究者采用了共同训练的方法。他们将Mobile ALOHA收集的数据与现有的静态ALOHA数据集结合起来进行训练。这种共同训练的方法在几乎所有的移动操作任务中都显示出了正向转移,即使在任务和形态上有所不同的情况下,也能实现等效或更好的性能和数据效率。

通过这些实现原理,Mobile ALOHA系统能够在有限的演示数据下,通过模仿学习掌握复杂的移动操作任务。这种低成本的解决方案为研究者提供了一个实用的平台,用于研究和开发能够在家庭环境中执行实用任务的机器人。

值得一提的是,该团队还公布了Mobile ALOHA系统的成本。整套系统的总价只要不到32000美元,包括机器人硬件、电源和计算设备、摄像头、传感器、组装和维护费用以及开源的软件部分。

Mobile ALOHA 为机器人学习和移动操作研究提供了一个经济高效的解决方案,使得更多的研究者和开发者能够参与到这一领域中来。

尽管 Mobile ALOHA 在硬件和软件方面都取得了显著进展,但该团队也表示,Mobile ALOHA 仍存在一些限制,例如系统占用面积较大,固定高度的双臂难以触及较低的橱柜、烤箱和洗碗机等。未来他们的工作将致力于解决这些硬件限制,并探索如何从高度次优的、异构的数据集中进行模仿学习。

Mobile ALOHA 项目目前已经在 Github上开源,团队也放出了相应的论文和介绍。这项技术还不够成熟,研发者还表示将会在不久之后在 Arxiv 平台发布更详细的论文,GenAI 也将会继续关注技术细节,有新消息会第一时间解读。


论文地址:https://mobile-aloha.github.io/resources/mobile-aloha.pdf

Github页面:https://mobile-aloha.github.io/

本文来自微信公众号:GenAI新世界(ID:gh_e06235300f0d),作者:吕可

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年1月4日
Next 2024年1月4日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日