小米华为vivo理想一起发了篇论文,想给AI定个规矩

L1-L3级别的Agent需要用户给它定个目标。

Agent在大佬们眼中的样子

我们先来看看围绕Agent部署的问题,大佬们的见解是怎样的。

看了大佬们对Agent的见解不难发现,虽然LLM是Agent的灵魂,但只靠LLM是做不出一个好Agent的,或者说做不出一个L4-L5的Agent。

Agent的基础能力

功能架构基本捋清了,那为了给Agent打造这些功能,都需要哪些底层能力呢。

中文互联网上一直流传着一则著名鸡汤:一流企业做标准,二流企业做品牌,三流企业做产品。

去年各家卷大模型的热潮已经过去,今年AI应用呼之欲出,概念最火的当属人工智能代理(AI Agent)

比尔·盖茨说:Android、iOS和Windows都是平台,AI Agent将成为下一个平台……未来5年内,我们不用打开应用去做事儿,只要对你的手机或电脑说你想做什么,它们就能够处理你的请求。[1]

手机在努力,用AI帮你P图、记笔记、做总结、发信息。

PC在努力,用AI帮你设置系统、操作软件、提升画质、提高游戏战斗力。

AI pin和Rabbit r1这样新概念随身设备从出生就在往AI Agent的方向努力,帮你实时访问GPT-4、自动操控手机应用和电脑软件。

产品层出不穷的同时,标准也随即诞生——由清华大学智能产业研究院(AIR)与小米、华为、Vivo、理想几家大公司联合出品,邀请产业专家依照Agent的能力,将其分成了L1-L5的五个能力等级。

L1-L3级别的Agent需要用户给它定个目标。

L1级别用户说一步做一步,并且只能按照开发人员预制的步骤执行任务。

L2可以根据用户的目标自己拆解步骤,并操作相关App或者调用API。

L3可以执行更复杂的任务,一边推测用户意图,一边调用手头所有资源,还要根据每步的反馈及时调整计划,直到完成任务。

而L4-L5级别的Agent已经不需要用户指挥,能主动感知当前的环境和用户状态,并且结合历史数据,主动给用户提供个性化服务。

这个分级和自动驾驶很类似,在L3之前都还需要人类高度介入,而到了高阶水平就可以完全替代人类。

在共同制定行业标准之外,产业大佬们还从385篇论文中总结出了AI Agent的过去、现在与未来。

过去我们就不回顾了,就看看现在,然后顺便展望一下未来。

Agent在大佬们眼中的样子

我们先来看看围绕Agent部署的问题,大佬们的见解是怎样的。

88%的人首选本地与云端混合方案,而且81.82%的人对现有的仅云端方案不满意。

不满意的原因主要是云端服务延迟高、个人隐私泄漏风险以及云服务的成本实在太高了。

仅本地的方案排名第二,主因是当下本地硬件的算力还无法支持高阶的Agent服务。

研究人员还调研了大佬们认为部署在个人设备上的AI Agent最需要哪种模态、最重要的能力以及哪种交互方式最有前景。

模态方面,大家可能是考虑到了本地部署,所以文本互动得分最高。

不过也有20%的人认为,影像(图片和视频)是未来AI Agent不可或缺的能力。

能力方面,虽然学术界对LLM处理长文本十分关注,但到了Agent应用这里,语言理解才是压倒性的第一。

毕竟你的Agent要是连用户的意图都识别不了,那接下来的推理和执行都进行不下去。

交互方式方面,大家目前最推崇的还是语音,即便VR今年有卷土重来的趋势,大佬们仍然觉得它价高不好推广且用户体验不佳。

Vision Pro那种空间交互方式压根就没在考虑范围内。

最后来看一下行业大佬未来想用Agent给客户提供些什么样的服务。

别说瞧见数字分身还真有点心动,克隆一个自己替自己上班的这天终于快来了(兴奋搓手)

看了大佬们对Agent的见解不难发现,虽然LLM是Agent的灵魂,但只靠LLM是做不出一个好Agent的,或者说做不出一个L4-L5的Agent。

LLM之于AI Agent,就像中央处理器之于计算机,做的是对资源进行管理和调度。

LLM首先通过获取顶层各种技能为用户提供服务,这些技能就像操作系统(OS)中的应用程序,可以添加也可以删除。

为了支持这些技能,LLM还要取得管理底层本地资源的能力,比如通过你的智能手表获取你的实时心率。

想要更智能的个性化服务,LLM最好还能获取当前用户的状态和历史资料。

比如结合你跟相亲对象的聊天记录和见面时的心率变化,判断你喜欢的类型,然后继续帮你在交友App、社交网络里寻觅这个类型并主动搭话,提升你相亲的成功率。

Agent的基础能力

功能架构基本捋清了,那为了给Agent打造这些功能,都需要哪些底层能力呢?

帮人干活,首先要有手(执行),再有眼(感知),最好再有个脑子(记忆)

执行能力,也就是让LLM去触发帮用户干活的技能,主要有两种实现方式:通过代码或直接上手操作图形界面(UI)

通过代码可以用传统的人工硬编码方式,也可以训练Agent自己写代码调用其他应用的API。

但是总有那么一些不爱配合别人的应用它不开放API,这个时候代码方式就不管用了。

所以有了第二种方式,让Agent直接模仿人类用户,通过滑动、点击等类人姿势操作应用以达成目的。

最近大火的Rabbit r1所用的LAM(Large Action Model)就是第二种。

不过UI方式执行复杂指令能力有限,让它点点手机App点个外卖是可以的,让它操作一下Blender这类3D建模的软件怕是连参数面板都找不全。

上下文感知主要是自动为Agent提供周围环境和用户信息,可以让Agent有主动判断主动执行的能力。

比如当Agent知道我现在身处图书馆,就可以自动帮我接听快递小哥的电话,然后把对话内容总结成文字发给我。

要感知这个世界,Agent可以从硬件传感器(GPS、麦克风、摄像头、光感、温度……)和软件内(应用使用情况、通话记录、打字习惯)获得信息。

还可以把多个来源的信息综合到一起判断更复杂的事情,比如通过耳机和手机麦克风的声差进行动作检测。

通过这些感知,Agent需要分析出两个状态:环境状态和用户状态。

根据不同的环境,Agent可以侧重更场景化的应用,例如在会议室的时候集中精力做会议记录和安排工作计划;在健身房的时候就好好检测用户的呼吸和心率。

用户状态分为短期和长期两种,短期方面更聚焦于情绪、压力、动态,如果检测到压力指数上升,Agent可以通过聊天、推荐音乐电影等方式帮你缓解。

长期方面则是作为一个陪伴用户的老师、指导的形象而存在,比如可以根据用户的喜好、技能、市场环境来进行贴身的职业规划。

记忆能力,一方面是指Agent记录、管理、利用用户历史数据的能力,另一方面则是Agent本身可以不断学习新技能、新知识的能力。

获取记忆的方式有两种:直接从感知到的原始数据里获得,或者从原始数据里推理出来。

比如说原始数据是用户每天回家路上都会在一个特定的地点停留5分钟,Agent通过位置信息和支付记录推理发现,用户每天停留是为了买烤肠。

那Agent就会记录下用户喜欢吃烤肠这一爱好。

记忆的类型还分为短时记忆和长时记忆。

短时记忆也称为工作记忆,也就是Agent在处理某一项任务周期内调用的所有相关信息。

长时记忆则用来储存每一次任务周期产生的经验,可以在今后遇到相似任务时再调出来参考。

有了长时记忆的Agent好比一个记吃又记打的孩子,可以一点点建立自己对这个世界的认知了。

想端侧,提效率

有了这些能力,Agent要是还住在看不见摸不着的云服务器里,那对用户来说还是用处不大。

一个能帮上忙的Agent,还是要做到真正融入用户的生活,那部署方式最后还要选择端侧。

但是端侧的算力和能源十分有限,要想在有限的资源里提升Agent的智能水平,那就只能从效率入手。

这篇综述里给大家整理了3大类8小项,具体20种提升端侧Agent效率的方式。

首先,LLM推理能力是重中之重,任务规划、调度执行资源、上下文和记忆的理解调用都需要用到推理,处理不好直接就成了Agent的性能瓶颈。

文中总结常用的推理提效方式有:把模型变小(模型压缩)、加速推理过程(增强上下文计算效率)、内存优化和从软硬件入手减少能耗。

然后,满足不同用户需求的必经之路是定制化,快速定制服务于不同用户群不同场景的Agent,以及让它低成本的与时俱进,是商业化必啃的一块硬骨头。

所以现在大家都忙着提升微调效率和上下文加载效率。

最后的内存优化管理则不只是Agent领域的提效方式了,不过的确是Agent要达到L5不得不做好的一件事。

Agent之后要打交道的数据不止文字,还有图片、语音、视频,还有可穿戴设备传回的健康情况,还有智能家居检测的环境状况。

单个用户的数据信息跨度动辄以年为单位,颗粒度甚至细致到每秒,如何管理如此庞大的数据库并提取出有效信息,还是个未解的难题。

这篇论文总结分析了很多,但硅基君看来,更像是大厂们联合起来发了个声明:以后做Agent,就都按照我们这套体系来评级吧。

参考资料:

[1] 比尔·盖茨都为之倾倒的AI Agent,究竟是什么|36氪

[2] Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security. arXiv preprint arXiv:2401.05459.

本文来自微信公众号:新硅NewGeek(ID:XinguiNewgeek),作者:刘白,编辑:张泽一,视觉设计:疏睿

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年1月19日 16:44
下一篇 2024年1月19日 17:04

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日