手脑并用,AI大模型“补全”机器人

 
● 从最早的美国波士顿动力,日本本田阿西莫,人形机器人的发展时间并不短,但这些早期产品迟迟没能够商业化的很大原因还是在于成本,直到现在人形机器人都没能大规模铺开。但未来国内企业最大的优势也会从这里体现,那就是软硬件的国产自研迭代能力和供应链规模化后的成本降低,现在工业协作机器人的发展趋势已经证明了这点。
 
● 只有人形机器人在一个合适的售价,更具体说,至少要降到十几万元,顶多二十万元出头,才能两三年内在一些垂直场景中真正投入示范应用,而不是像现在仅仅作为科研载体。然后等售价再低到十万元左右甚至更低时,可能才会走进千家万户。当然,这个前提是大脑技术要足够成熟。
 
● 机器人成本高昂,除了关键技术还在研发以外,还有一个比较大的因素,就是传感器的结构布局过于分散,装的东西越多,装配复杂度就越高,这会给成本带来直接压力。因此,将所有设备都用同一个软件操作系统进行互联互通,对于未来机器人的能力开放性和成本降低都有好处。
 
和“人”竞争性价比,主流应用从B端开始
 
● 目前对具身机器人的研究更多是在科研中,预计未来三年到五年,会逐步先出现在B端场景,比如汽车、物流、仓储、中央厨房、搬运制造业,包括还有一些高校教育,以及便利店的上下货、清洁、最后一公里物流等等。

抓鸡蛋、做深蹲… …更轻、更稳、更快。

 

这是特斯拉刚刚发布的人形机器人Optimus擎天柱二代,不论从运动能力还是智能能力,都比去年的一代有明显提升,也让人们对AI的终极形态,再度心潮澎湃。

 

具身智能,一种基于物理身体进行感知和行动的智能系统,人形机器人就正是根据这一概念打造而来。

 

12月13日,虎嗅智库举办了502线上同行主题研讨活动,来自达闼机器人高级副总裁Karl赵博士、上海开普勒探索机器人联合创始人/副总裁胡德波、乐聚机器人副总裁吴雨璁、深圳开鸿数字产业发展有限公司OS产品部部长柴莹、祥峰投资副总监陈雅琢,就具身智能和人形机器人进行了前沿观点分享。

 

 

以下为嘉宾的部分观点摘要:

 

“肢解”具身智能机器人:大脑、小脑是核心

 

● 具身智能(Embodied Intelligence)不是一个新的知识,更多是把目前现有的人工智能领域的新发展统一放到一起。它从上到下的功能可划分为:大脑、小脑、主控系统、主干结构以及零部件。

 

大脑,负责规划决策、分解任务,主要就是指现在新兴的AI大模型;小脑,负责全身的运动分层控制;主控系统,包括实施系统调度、通信协议站、CPU、GPU、FPG硬件加速进程和算力的优化;主干结构及零部件有双臂、足式、轮式等,类似于人的一系列关节和肌肉。

 

● 在产业界,小脑的研究比大脑的研究时间更长,积淀更深。大脑对语义信息理解过后需要转化为动作,小脑就是运动控制的核心,它主要是控制算法的进化。机器人要实现越高难度的任务,就需要小脑越能够做到精细的底层控制,优化整个运动效果,这涉及到步态平衡、动力学模型以及控制框架等等。目前这一块的最新研究是通过强化学习加模拟的解决方案,让具身智能从环境中获取它更优的状态,然后由智能体做出决策,且对环境做出一个合理的行为反应,最终逐步实现具身智能机器人的远景。

 

● 随着AI大模型的进化和爆火,具身智能机器人能否走进现实?国内外的学者专家对此观点不一。有的认为可以将这种在很大数据语料库上训练大模型的方法通用到机器人身上。也有人认为,在目前这个时间节点,无法真正解决机器人学习的商业化大规模落地。

 

第一个难点是数据获得的难度。在现实生活中收集其他的数据相对简单,但大规模的机器人数据目前并没有明确的获得途径,且机器人形态大小不一,实体的多样性意味着需要针对机器人类型来分门别类的收集数据,这会使本来就有难度的数据收集变得更加困难。

 

第二是性能预知的问题。比如GPT的回答会和实际出现一定偏差,但真正运用到现实世界的工业、商业和家庭场景中时,容错率是很低的,目前的机器人学习算法达不到很高的可靠性和准确度,而且硬件系统的单次失效成本也远远高于软件系统,所以成本也非常高。

 

第三是机器人任务的long horizon长视野问题。不同于使用大语言模型获得单一问题的解答,机器人需要非常多的一系列的正确指令和动作才能完成我们提出的一个简单任务。所以,随着时间推移和任务难度的叠加,误差也会逐渐累积变大,所以大家会觉得这个时间点用大模型做端到端的机器人具身智能并不成熟。

 

● 对于这方面的创业公司来说,产业在技术上算是有所准备了,但对待落地产品更应该要有终端交付的思维,而不是单纯的通过高成本进行单次训练来获得一个相对好看的研究成果。

 

国外“大脑”开发超前,国内“降本”优势明显

 

● 对比硬件能力,国内公司和国外基本可以齐平,甚至在核心零部件方面,国内还略有优势。但在“大脑”方面,AI大模型特别是多模态的探索上,国外企业优势更明显,也导致了他们的机器人本体性能更强大。

 

● 从最早的美国波士顿动力,日本本田阿西莫,人形机器人的发展时间并不短,但这些早期产品迟迟没能够商业化的很大原因还是在于成本,直到现在人形机器人都没能大规模铺开。但未来国内企业最大的优势也会从这里体现,那就是软硬件的国产自研迭代能力和供应链规模化后的成本降低,现在工业协作机器人的发展趋势已经证明了这点。

 

● 只有人形机器人在一个合适的售价,更具体说,至少要降到十几万元,顶多二十万元出头,才能两三年内在一些垂直场景中真正投入示范应用,而不是像现在仅仅作为科研载体。然后等售价再低到十万元左右甚至更低时,可能才会走进千家万户。当然,这个前提是大脑技术要足够成熟。

 

● 机器人成本高昂,除了关键技术还在研发以外,还有一个比较大的因素,就是传感器的结构布局过于分散,装的东西越多,装配复杂度就越高,这会给成本带来直接压力。因此,将所有设备都用同一个软件操作系统进行互联互通,对于未来机器人的能力开放性和成本降低都有好处。

 

和“人”竞争性价比,主流应用从B端开始

 

● 目前对具身机器人的研究更多是在科研中,预计未来三年到五年,会逐步先出现在B端场景,比如汽车、物流、仓储、中央厨房、搬运制造业,包括还有一些高校教育,以及便利店的上下货、清洁、最后一公里物流等等。未来更长期看,一定是会做到C端场景中。因为C端任务更复杂和具体,所以对技术要求更高,对单台机器的造价成本也会压低。再往后,终局会落到家庭安防、老人的看护陪伴,端茶送水等。这些难度就更高,需要极为泛化的物体交互能力。

 

● 除了实体机器人之外,云网端架构还可以支撑虚拟机器人,或者又叫数字人,它虽然不是百分之百的具身智能,但也具备了具身智能的特点。虽然不能直接走动,但它也可以通过摄像头看到听到,具备思维能力后可以和人进行互动,这在文旅行业,包括图书馆之类已经在用起来了。

 

● 在B端应用上,一定会面临算账的逻辑。根据我们测算,一个人形机器人的价格,只有在跟一个员工大概一年到一年半左右的工资,也就是十几万元到二十万元这个范围内,才能和“人”产生一些竞争力。而在欧美,2-3万美金的价格区间是批量落地应用的门槛,现在大部份人形机器人厂家都远高于这个价格,只有少数中国厂家已经率先冲击这个价位。

 

● 像碰到的有真实需求的客户会提很多要求,这很有利于我们快速的在实际场景中打磨应用,功能性上有良好反馈,也让我们对一线理解更深,这里面会有一个交叉反驳螺旋上升的过程。

 

● 以前传统机器人是要工程师去做配置、做编程的,所以人形机器人的大批量落地,除了攻破技术门槛,还需要非常高水准的部署便捷性,包括作业系统的集成、任务的管理、数据的安全等等一系列问题,都要一步步来解决。

 

… …

 

本次活动中,线上参会观众汇集了来自北京大学、复旦大学、北京邮电大学、南开大学、中科院自动化研究所、上海人工智能实验室等高校研究员,也有来自美团、腾讯、字节跳动、京东、商汤科技、智谱AI、地平线等知名公司的人工智能相关负责人,还有一众知名机构VC投资人,大家在互动区进行了热烈的提问,对于“越来越多公司在研发基于强化学习的小模型比如抓取、导航等,如何看待这些新的小脑技术方案?”“机器人的灵巧手多久能用来干重活?”等问题,嘉宾给出了精彩回复,也圆满结束了本次502线上同行研讨活动。

 

关于虎嗅智库:

 

虎嗅智库致力于推动产业数字化以及以“双碳”转型为代表的可持续发展,为参与这个进程的中国企业高管、政府相关决策服务。我们主要的服务手段主要为:研究型内容(报告、分析文章、调研评选)、数据库、线上线下活动与社群、定制型项目等。

 

我们提供的核心价值:

 

及时与优质的洞察,了解技术、了解行业、了解同行与对手;

为决策者技术与产品战略决策、产业规划、解决方案选型提供重要参考;

帮助市场全面了解前沿科技及所影响产业的发展状况,还有未来趋势。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年12月16日
下一篇 2023年12月16日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日