还记得曾火遍全网的ALOHA家务机器人吗?最近该项目导师,斯坦福计算机科学与电气工程系教授Chelsea Finn在X宣布,正式与其他几位伯克利大牛学者、谷歌DeepMind科学家共同创业,全力为机器人打造智能大脑。
新公司的名字叫Physical Intelligence,简称Pi或π。目标是开发一套“为各种机械设备添加高级智能的软件”,最终构建可以控制任何机器人执行任何任务的通用AI模型。
Chelsea Finn解释说,这其实极具挑战性,需要整合机器人跨平台策略、从视觉和语言模型中迁移学习、并通过模仿学习实现对灵活技能的掌握。
联合创始人兼CEO Karol Hausman也兴奋表示,项目将收集前所未见规模的机器人数据,进行算法改进和训练超大模型,并攻坚一切将AI引入物理世界所需的技术。为此他们组建了一支“世界级团队”,迫不及待开始这趟新的冒险旅程。
根据公开消息,才创立不到一个月,Pi已经被包括OpenAI和其早期投资者Khosla Ventures、美国红杉资本、Lux Capital在内的多家风投机构提前锁定,拿下7000万美元的高额融资。这不仅因为公司在机器人赛道中的技术前景被无比看好,更多是对创始团队实力的信心押注。
十人团队,人均大神,一位华人成员
Pi的官网页面上是这样介绍自己的:
“Physical Intelligence是一家将通用人工智能带入物理世界的新公司。
我们是一群工程师、科学家、机器人学家和公司创建者,正在开发驱动当今机器人和未来物理设备的基础模型及学习算法。现在还处于初期阶段,欢迎有兴趣的伙伴加入!”
列出的成员目前只有十人:
虽然展示方式“过于朴素”,但团队阵容实际上相当豪华,几乎是人均大神。在加入Pi以前,他们各自都有不斐的研发成果,好几位都是业界响当当的名字。
首先必须介绍的是除Chelsea Finn和Karol Hausman的另一位联创Sergey Levine。
Sergey Levine现任UC Berkley电气工程与计算机科学系助理教授,专注于研究让自主智能体通过学习获得复杂行为的通用算法,集中在机器学习决策和控制领域。并开发端到端深度神经网络训练策略,曾带领团队与谷歌联合开发RT-X机器人项目,被认为是强化学习领域的领军人物之一。
然而更令这个男人扬名立万的是他“学术狂魔”的名号。Sergey Levine谷歌学术上被引用量超过13万,同时在顶级国际会议和期刊上发表过大量研究论文,接收量长期位居前列,并且经常霸榜。
例如NeurIPS 2019 和 2020 上他分别有 12 篇论文被接收,位列NeurIPS榜单第一。2019年ICML论文接收量并列第二。2022年更是向ICML投稿了30篇论文,并以16篇的接收量断崖式登顶作者Top1——简直是令人闻之丧胆的“论文收割机”!
此外Sergey Levine还是伯克利人气超高的“网红教授”,教育成就十分突出。他开设的深度学习课程(Deep Reinforcement Learning,代号CS285)在学生中反响极为热烈,很受欢迎。线上视频在油管和B站都可以观看,广为传播。
在这次对于新公司Pi的“创业声明”里他说,希望为机器人领域带来类似“大语言模型之于自然语言处理”那样的通用解决方案。
“过去我们已经多次看到,机器学习在大规模数据集与小数据集中面临的问题有巨大不同。我们的研究很有实用性价值,相信也会为基础研究突破打开大门。”
开篇提到的Chelsea Finn也是联合创始人之一。她从MIT大学毕业后在伯克利取得博士学位,其介绍元学习算法的毕业论文获得2018年ACM博士论文奖,当时的指导老师就有Sergey Levine。
目前Chelsea Finn担任斯坦福大学计算机科学和电气工程的助理教授,重点研究通过学习和交互来发展机器人等智能体的广泛智能行为。例如端到端视觉感知和机器人操控,从收集的经验中自主学习通用技能,以及快速学习新概念和行为的元学习算法,谷歌学术引用超4.9万次。她也曾在谷歌大脑担任过5年研究科学家,开发机器人深度预测模型。
Pi的首席执行官Karol Hausman是谷歌大脑的高级研究科学家,同时也是斯坦福大学的兼职教授。他的研究兴趣集中在使机器人能够在真实世界中以最小的监督自主获得通用技能,并因“对可扩展的机器人学习算法做出重大贡献”而获得2023年IEEE机器人与自动化学会行业职业奖。
除了这三位,团队还聚集了擅长机器人运动规划和基础模型的前谷歌研究科学家Brian Ichter;巴基斯坦裔杰出工程师、前特斯拉自动驾驶和硬件专家(设计了Model X独特的上翘式猎鹰门)、现Anduril Industries高级副总裁兼电气工程负责人Anduril Industries;Chelsea得意门生、丰田研究所机器学习、机器人学和计算机视觉研究科学家Suraj Nair;以及支付公司Stripe前高管、著名科技投资人Lachy Groom等业界大牛。
另外吸引我们注意的是,这份名单列表里还有一位华人成员Lucy Shi。这位来自人大附中的姑娘在USC获得计算机科学学士学位,现在是一名斯坦福的学生研究员,由Chelsea Finn教授指导。曾与NVIDIA 高级研究科学家兼通用具身智能研究团队负责人Yoke Zhu、高级研发经理Jim Fan合作过。
最近她刚公布了斯坦福与伯克利合作的Yell At Your Robot(YAY Robot)项目,展示机器人从语音纠正中实时改进,根据人类口语反馈来学习和不断提升,执行灵巧操作任务的研究成果。
Lucy Shi在个人页面开心地分享了自己以“第一位实习生”身份加入Physical Intelligence 的消息。
自我介绍中她写道:“我对机器人学习有着广泛兴趣。研究目标是创造出通用型机器人,在我们日常生活中无缝执行复杂、长期的任务….我深信人类的创造力和人工智能的潜力。未来20年,我希望成为一名大学教授,建立起新一代的贝尔实验室 ——这个改变世界的创新思想工厂。这让我们欣喜地看到又一位智慧与理想兼具、前途无量的年轻学者。”
迎难而上的智能机器人大脑缔造者
在历久以来的科幻小说和电影里,人们总梦想有一个真正听懂自己需求的机器人。它会思考、有情绪,能跟在身边陪伴我们,帮助解决生活中的种种难题,像人类朋友一样全能。然而现实中的机器人虽说可以在工厂搬运重物、给家里打扫卫生,但与日益通用化的聊天机器人相比,能够执行的任务范围相对要局限很多。
Chatbot和LLM的崛起得益于互联网语料中的海量数据。OpenAI和Google可以通过向大语言模型输入数十亿个人类语言样本来训练它们。然而从真实世界收集类似规模的数据是极其困难的,这也限制了近几年人工智能在物理机器人领域的进步。
Physical Intelligence认为,现在正是采用新方法推进通用型机器人的时机。
Figure 01通过接入ChatGPT实现了人形机器人智能化的“看听说”交互,让人们看到大模型与机器人结合的巨大潜力。Pi也希望将构建语言模型的先进技术与自己的机器控制和指令技术相结合,创建一种任何硬件、任何平台都可用的,具备广泛任务执行能力的通用人工智能系统。
团队表示,Pi并不专注于特定类型的机械臂或工业机器人,而是计划开发可以应用于多种类型机器人的软件。他们也不会制造自己的硬件,创业后第一步是解决工程问题、搭建模型,以及购买各种不同的机器人并在上面开展训练,目的就是积累迄今为止最大规模的机器人数据。
Karol Hausman在接受公开采访时强调,团队要开发一个通用模型,将人工智能从计算机里带到物理世界,“它能为任何硬件设备提供动力,用于任何应用。”
而这显然不仅仅是Pi的愿景。除了面临来自Figure AI和特斯拉等制造人形机器人公司的竞争,几十年来,人们也一直在努力改进驱动机器人的软件。
就在Pi宣布成立的同一周,有着7年历史、由知名AI科学家Pieter Abbeel和他三位华人博士生创立的Covariant公司就推出了基础模型RFM-1,为机器人提供类似ChatGPT的语言理解和生成能力。经过一般互联网数据和丰富现实世界交互数据的联合训练,RFM-1可以让机器人理解自然语言指令并生成相应的动作,并能处理一些突发状况,收获大量好评。
如今强强联合,正式加入战场的Pi,到了将团队多年潜心累积的卓越成果集大成的时候了。再加上OpenAI的背后支持,能不能凑齐龙珠召唤神龙,推动通用机器人领域的新纪元?
“我们的目标是为机器带来人类那样的基本能力。” Lachy Groom说,“我认为构建人形机器人是非常酷的事情。但从根本上让人类变得有趣的是大脑,而不是我们的硬件——我们才是终极的通才。”
本文来自微信公众号:硅星人Pro(ID:Si-Planet),作者:张潇雪