AI Agent,为什么是AIGC最后的杀手锏?

Agent基本框架如下图:

基于LLM驱动的Agent基本框架[5]

它具有记忆、规划、行动和使用工具四个主要模块:

(1)记忆(Memory)。[6]

AI Agent将带来更为广泛的人机融合

基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理,还将改变人机协同的模式,带来更为广泛的人机融合。

人工智能智能体应用一览图[15]

Agent下一步可能会朝着两个方向同时迭代。

AI Agent无疑是当下大模型最激动人心的发展主线,被称为“大模型下一场战事”“最后的杀手产品”“开启新工业革命时代的Agent-centric”。11月7日,OpenAI首届开发者大会(OpenAI DevDay)引爆了AI Agent。OpenAI发布了AI Agent初期形态产品GPTs,并推出了相应的制作工具GPT Builder。

用户仅仅通过跟GPT Builder聊天,把想要的GPT功能描述一遍,就能生成专属GPT。专属GPT可以在日常生活、特定任务、工作或家庭中更为适用。为此,OpenAI还开放了大量的新API(包括视觉、图像DALL·E3、语音),以及新推出的Assistants API,让开发者可以更便捷地开发自己专属的GPT。

比尔·盖茨最新发表一篇文章明确提出,5年内AI Agent将大行其道,每个用户都将拥有一个专属AI Agent。用户不需要再因为不同的功能需求而使用不同的APP,他只需用日常语言告诉他的Agent想做什么就可以。[1]

GPTs发布后在一周内,已经累计超过17500多个

那么,AI Agent究竟是什么?为什么如此重要,以至于业界有这么高的关注度,甚至有学者断言“美国Agent Store(智能体商店)发展得好,这会令中美大模型差距持续拉大”?[2]

AI Agent是什么?

在计算机、人工智能专业技术领域,一般将agent译为“智能体”,其定义是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性(慎思性)、认知性等一种或多种智能特征的软件或硬件实体。[3]

OpenAI将AI Agent定义为,以大语言模型为大脑驱动,具有自主理解感知、规划、记忆和使用工具的能力,能自动化执行完成复杂任务的系统[4]。AI Agent基本框架如下图:

基于LLM驱动的Agent基本框架[5]

它具有记忆、规划、行动和使用工具四个主要模块:

(1)记忆(Memory)。记忆模块负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。对于一个智能体来说,有效的记忆机制能够保障它在面对新的或复杂的情况时,调用以往的经验和知识。例如,一个具备记忆功能的聊天机器人可以记住用户的偏好或先前的对话内容,从而提供更个性化和连贯的交流体验。

它分为短期记忆和长期记忆:a.短期记忆,所有的上下文学习都是利用短期记忆来学习;b.长期记忆,这为智能体提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量数据库和快速检索,比如某个行业领域沉淀的大量数据和知识。有了长期记忆,很多数据可以被积累下来,使得智能体的可用性更加强大,更具行业深度、个性化、能力专业化等优势。

(2)规划(Planning)。规划模块具有事前规划和事后反思两个阶段。在事前规划阶段,这里涉及对未来行动的预测和决策制定,如执行复杂任务时,智能体将大目标分解为更小的、可管理的子目标,从而能够高效地规划一系列步骤或行动,以达到预期结果。在事后反思阶段,智能体具有检查和改进制定计划中不足之处的能力,反思错误不足并吸取经验教训进行完善,形成和加入长期记忆,帮助智能体之后规避错误、更新其对世界的认知。

(3)工具使用(Tool use)。工具使用模块指的是智能体能够利用外部资源或工具来执行任务。如学习调用外部API来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等,以此来补足LLM自身弱项。例如LLM的训练数据不是实时更新的,这时可以使用工具访问互联网来获取最新信息,或者使用特定软件来分析大量数据。

现在市场上已经存在大量数字化、智能化的工具,智能体使用工具比人类更为顺手和高效,通过调用不同的API或工具,完成复杂任务和输出高质量结果,这种使用工具的方式也代表了智能体的一个重要特点和优势。

(4)行动(Action)。行动模块是智能体实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动,比如广为熟知的记忆检索、推理、学习、编程等。

总的来说,这四个模块相互配合使智能体能够在更广泛的情境中采取行动和作出决策,以更智能、更高效的方式执行复杂任务。[6]

AI Agent将带来更为广泛的人机融合

基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理,还将改变人机协同的模式,带来更为广泛的人机融合。生成式AI的智能革命演化至今,从人机协同呈现了三种模式:

(1)嵌入(embedding)模式。用户通过与AI进行语言交流,使用提示词来设定目标,然后AI协助用户完成这些目标,比如普通用户向生成式AI输入提示词创作小说、音乐作品、3D内容等。在这种模式下,AI的作用相当于执行命令的工具,而人类担任决策者和指挥者的角色。

(2)副驾驶(Copilot)模式。在这种模式下,人类和AI更像是合作伙伴,共同参与到工作流程中,各自发挥作用。AI介入到工作流程中,从提供建议到协助完成流程的各个阶段。例如,在软件开发中,AI可以为程序员编写代码、检测错误或优化性能提供帮助。人类和AI在这个过程中共同工作,互补彼此的能力。AI更像是一个知识丰富的合作伙伴,而非单纯的工具。

实际上,2021年微软在GitHub首次引入了Copilot(副驾驶)的概念。GitHub Copilot是一个辅助开发人员编写代码的AI服务。2023年5月,微软在大模型的加持下,Copilot迎来全面升级,推出Dynamics 365 Copilot、Microsoft 365 Copilot和Power Platform Copilot等,并提出“Copilot是一种全新的工作方式”的理念。工作如此,生活也同样需要“Copilot”,“出门问问”创始人李志飞认为大模型的最好工作,是做人类的“Copilot”。

(3)智能体(Agent)模式。人类设定目标和提供必要的资源(例如计算能力),然后AI独立地承担大部分工作,最后人类监督进程以及评估最终结果。这种模式下,AI充分体现了智能体的互动性、自主性和适应性特征,接近于独立的行动者,而人类则更多地扮演监督者和评估者的角色。

人类与AI协同的三种方式[7]

从前文对智能体记忆、规划、行动和使用工具四个主要模块的功能分析来看,智能体模式相较于嵌入模式、副驾驶模式无疑更为高效,或将成为未来人机协同的主要模式。

基于Agent的人机协同模式,每个普通个体都有可能成为超级个体。超级个体是拥有自己的AI团队与自动化任务工作流,基于Agent与其他超级个体建立更为智能化与自动化的协作关系。现在业内不乏一人公司、超级个体的积极探索。

Github平台上有一些基于Agents的自动化团队——GPTeam项目。GPTeam利用大模型创建多个被赋予角色和功能的智能体,多智能体协作以实现预定目标。比如,Dev-GPT是一个自动化开发和运维的多智能体协作团队,包含了产品经理Agent、开发人员Agent和运维人员Agent等角色分工。这个多智能体团队可以满足和支撑一个初创营销公司的正常运营,这便是一人公司。

又如,号称是世界上第一个AI自由职业者平台的NexusGPT[8]。该平台整合了开源数据库中的各种AI原生数据,并拥有800多个具有特定技能的AI智能体。在这个平台上,你可以找到不同领域的专家,例如设计师、咨询顾问、销售代表等。雇主可以随时在这个平台上选择一个AI智能体帮助他们完成各种任务。

AI Agent将改变软件的游戏规则,促进AI基础设施化

AI Agent正在重新定义软件。比尔·盖茨认为,AI Agent将彻底颠覆软件行业,将影响我们如何使用软件以及如何编写软件。[9]

AI Agent将使软件架构的范式从面向过程迁移到面向目标。现有的软件(包括APP)通过一系列预定义的指令、逻辑、规则和启发式算法将流程固定下来,以满足软件运行结果符合用户的预期,即用户按照指令逻辑一步一步操作达成目标。这样一种面向过程的软件架构具有高可靠性、确定性。但是,这种面向目标的架构只能应用于垂直领域,而无法普遍应用到所有领域,因此标准化和定制化之间如何平衡也成为SaaS行业面对的难题之一。

软件架构范式迁移[10]

AI Agent范式将原本由人类主导的功能开发,逐渐迁移为以AI为主要驱动力。以大模型为技术基础设施,Agent为核心产品形态,把传统软件预定义的指令、逻辑、规则和启发式算法的任务层级演变成目标导向的智能体自主生成。这样一来,原本的架构只能解决有限范围的任务,未来的架构则可以解决无限域的任务。[11]

未来的软件生态,不仅是最上层与所有人交互的媒介是Agent,整个产业的发展,无论是底层技术,商业模式,中间组件,甚至是人们的生活习惯和行为都会围绕Agent来改变,这就是Agent-Centric时代的开启。[12]

RPA范式(Robotic Process Automation)与APA范式(Agentic Process Automation)的比较[13]

以“大模型+Agent”SaaS级产品ChatDev智能软件开发平台为例。该平台就像一家完全由AI Agents组成的软件开发公司,里面会有CEO、CTO、开发经理、产品经理、测试专员、监督员等各类Agent角色。

用户只需要把明确的需求告诉CEO角色的Agent,这个CEO就会基于用户的需求,组织整个软件开发流程。最后交付给用户的包含了软件产品和整个开发过程中的代码,并且所有流程都是自动化的[14]。这将使软件行业降低生产成本、提高定制化能力,进入软件的“3D 打印”时代。

AI Agent的展望与挑战

AI Agent是人工智能成为基础设施的重要推动力。回顾技术发展史,技术的尽头是成为基础设施,比如电力成为像空气一样不易被人们察觉,但是又必不可少的基础设施,还如云计算等。

当然,这要经历以下三个阶段:创新与发展阶段——新技术被发明并开始应用;普及与应用阶段——随着技术成熟,它开始被广泛应用于各个领域,对社会和经济产生深远影响;基础设施阶段——当技术变得普及到几乎无处不在,它就转变成了一种基础设施,已经成为人们日常生活中不可或缺的一部分。

几乎所有的人都认同,人工智能会成为未来社会的基础设施。而智能体正在促使人工智能基础设施化。这不仅得益于低成本的Agent软件生产优势,而且因为Agent能够适应不同的任务和环境,并能够学习和优化其性能,使得它可以被应用于广泛的领域,进而成为各个行业和社会活动的基础支撑。

人工智能智能体应用一览图[15]

Agent下一步可能会朝着两个方向同时迭代。一是与人协助的智能体,通过执行各种任务来协助人类,侧重工具属性;二是拟人化方向的迭代,能够自主决策,具有长期记忆,具备一定的类人格特征,侧重于类人或超人属性。

从技术优化迭代和实现上来看,AI Agent的发展也面临一些瓶颈:

首先,我们通过OpenAI的GPTs也能看到,LLM的复杂推理能力不够强、延迟过高等问题抑制了Agent应用的真正成熟。这也是接下来业界工程优化和技术科研突破的方向。

其次,多智能体(Multi-agent)发展仍面临较大困境。多智能体是一个非常复杂的学术研究方向,随着智能体开始普及到大众市场,已经成为重要的技术现实问题。例如,斯坦福的虚拟小镇就包含了25个智能体的多智能体研究。但是小镇框架开源之后,根据开发者的测试一个Agent一天需要消耗20美金价格的token数,因为其需要记忆和行动的思考量非常大。这一价格是比很多人类工作者更高的,需要后续Agent框架和LLM推理侧的双重优化。

突破多智能体的发展困境,是未来智能体社会(Agent Society)建立的重要前提。多智能体协同可以组成智能体社会这一最高形态的技术社会系统。智能体社会具有复杂、动态,自组织和自适应的特性,能够协作、竞争、不断进化。在这个社会系统中,智能体能够根据目标和环境变化执行复杂灵活的任务,并与人类及其他智能体进行高级别、多维度的互动和协作。智能体社会不仅有助于人类探索和拓展物理及虚拟世界,还能增强和扩展人类的能力与体验。

同时,这些发展趋势预示着AI Agent可能面临诸如安全性与隐私性、伦理与责任、经济和社会就业影响等多方面的挑战。

(1)安全性和隐私性是智能体的关键特性,对其稳定运行和对用户及社会的保护至关重要。这两个因素直接影响AI代理的信任度和控制力。若AI代理出现漏洞、遭受攻击或数据泄露等问题,则可能导致对用户或社会的损害。比如,OpenAI的GPTs在发布后不久,出现了安全漏洞,导致了用户上传的数据泄露。

(2)伦理和责任是智能体的核心原则,决定其价值观和目标,以及对用户和社会的尊重与保护。这些原则直接影响智能体的可信度和可控性。若智能体表现出不公平、不透明或不可靠等问题,可能引发用户或社会对技术的排斥。责任归属也是智能体的关键议题,人与智能体协同中的责任归属不清晰或不公正也会带来严重后果。

(3)经济和社会就业影响。未来工作中的一个重要挑战是人类与智能体之间的竞争。例如,AI自由职业者平台NexusGPT的出现便是对传统自由职业者的冲击。未来的社会工作协同中,也会出现越来越多的智能体,雇主基于效率和效益考虑,可能会尽量减少人力投入。随着智能体技术的成熟,我们必须提前思考这些技术发展对社会和个人职业生涯的长期影响。

以ChatGPT的发布为分水岭,全球自由职业平台上的写作/编辑类从业者的数量和收入都进入了断崖式下跌的轨道[16]

参考资料来源

[1]https://www.gatesnotes.com/AI-agents

[2]https://mp.weixin.qq.com/s/EWvw83Gch_xWmAcT7dVV5A

[3]全国科学技术名词审定委员会.《计算机科学技术名词(第三版)》[M].北京:科学出版社,2018年12月.

[4]如果从AI Agent概念入手,将它翻译为“AI代理”,这是不准确的。“agent”这个词源自拉丁语动词“agere”,意为“做”或“行动”(“to do”),涵盖了广泛的行为和活动。从这个词演变而来的名词形式“agents”直译为“行动者”或“执行者”,用于描述那些执行动作或具有行动能力的实体。 

[5]https://lilianweng.github.io/posts/2023-06-23-agent

[6]https://lilianweng.github.io/posts/2023-06-23-agent

[7]https://mp.weixin.qq.com/s/AluYfD6BQOkLo6XpJMyQnQ

[8]https://nexus.snikpic.io/

[9]https://www.gatesnotes.com/AI-agents

[10]https://mp.weixin.qq.com/s/X27SWFeZsXmbuFZEow8DLQ

[11]https://mp.weixin.qq.com/s/X27SWFeZsXmbuFZEow8DLQ

[12]腾讯科技.大模型能力竞争终局已定.https://mp.weixin.qq.com/s/V0fbugryGcs7vox4EkRisg

[13]过去RPA仅能替代简单、机械的人力工作,一些复杂的流程仍旧依赖人工,存在两大难题:编写RPA工作流本身需要繁重的人类劳动,成本较高;复杂任务非常灵活,通常涉及动态决策,难以固化为规则进行表示。而在APA范式中,Agent可以根据人类的需求自主完成工作流构建,同时其可以识别人类需求中需要动态决策的部分,将自动编排进工作流中,并在工作流执行到该部分时主动接管工作流的执行完成相应复杂决策。 

[14]https://baijiahao.baidu.com/s?id=1782631006897855123&wfr=spider&for=pc

[15]https://github.com/e2b-dev/awesome-ai-agents

[16]Hui X, Reshef O, Zhou L. The Short-Term Effects of Generative Artificial Intelligence on Employment: Evidence from an Online Labor Market[J]. Available at SSRN 4527336, 2023. 

本文来自微信公众号:腾讯研究院 (ID:cyberlawrc),作者:胡晓萌、陈楚仪

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年11月22日
下一篇 2023年11月23日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日