给AI分级:通用刚入门,个别领域已经超人

AGI的发展,并不意味着更高级的人工智能完全替代更低级的人工智能,不意味着通用的人工智能取代垂直人工智能,更不意味着人工智能完全替代人工。

未来的人类与人工智能的互动,将会是混合式的,即通用人工智能、垂直人工智能和非人工智能的混合。

按研究人员的逻辑,是更强的人工智能系统会产生更强的自主性,进而实现人工智能与人类的交互的变化,直至范式的转移,包括完全自主的人工智能。

ChatGPT发布将满一年,被称为开启了通用人工智能的大门。而之后发布的GPT-4,因为在诸多的测试中表现了惊艳的效果,立即被一些研究人员称为一种“通用技术”,迸发出“通用人工智能的火花”。

通用人工智能一年来的发展,也伴随着诸多的争论。对人工智能的发展非常自信的声音,认为到2030年左右就可以实现“通用人工智能”,即人工智能将达到甚至超过人类的水平,反对的声音认为现在人工智能还处于很初级的水平,还根本谈不上通用人工智能。

“深度学习之父”辛顿(Geoffrey Hinton)认为实现通用人工智能,即AI达到或超过人类的时间会大大提前,最快至2030年,他也担忧超级智能将会对人类带来“生存威胁”。这种观点遭到许多人工智能专家的反对,认为目前人工智能还不配引发生存威胁。

通用人工智能的发展,会带来风险,需要监管,这已经成为共识。但是,如果把理论上或者科幻小说中存在的风险带入监管,而对现实的风险无计可施,可能会阻挠创新,监管本身也会脱离人工智能技术发展与应用的实际情况,让风险与安全这样的话题变成口水式的空谈。

最近在英国布莱切利花园结束的首届人工智能安全大会,发布的宣言有包括中国在内的28个国家签字。一些国家和8家领先的人工智能企业,还签署了一份自愿检测人工智能大模型安全性的文件。

欧盟、中国、美国推出的人工智能监管与立法,基本上秉持了风险控制的原则。这样,就需要衡量通用人工智能所带来的风险。

但通用人工智能是一项新兴的技术,发展很快,它所带来的风险,只是在实际应用中才会出现,也是在一些前沿的研究中逐步发现的,有些潜在的巨大风险,甚至根本就会阻止技术的全面部署。

从技术上来说,人工智能越先进,自主性就会越强,人类与智能系统交互的关系变化越快,从而不断释放出潜在的风险。身处这样一个快速的技术创新的实践过程中,对风险的发现与识别,可能风险管理中必需的一个视角。

AI专家们对风险的认识,从可操作、可衡量的工程思维出发。Google DeepMind的8位研究人员,梳理出来了一个框架,类似于自动驾驶的分级,能用共同的语言进行模型比较和风险评估。他们发表了一篇论文:《分级AGI:通往AGI之路上可操作的进步》。

研究人员从图灵测试开始,梳理了通用人工智能概念的形成与演变,包括1997年美国军方首次提出通用人工智能(Artificial General Intelligence)这个概念,直到生成式人工智能和大语言模型时代,最领先的人工智能企业如OpenAI、Anthropic等对AGI的定义和主张。AGI究竟能完成“哪些人”的“什么任务”,并不那么容易说清楚。他们总结出了AGI的六个原则。

定义AGI:六个原则

1. 侧重于能力,而不是过程。大多数定义侧重于AGI可以完成什么任务,而不是它完成任务的机制。这对于识别不一定是实现AGI的前提条件(但可能仍然是有趣的研究课题)很重要。这种侧重于能力使我们能够从AGI的要求中排除以下内容:

  • 实现AGI不意味着系统以人类方式思考或理解(因为这侧重于过程,而不是能力)

  • 实现AGI不意味着系统具有诸如意识或情感(因为这些品质不仅侧重于过程,而且不容易通过公认的科学方法来测量)

2. 侧重于通用性和性能。上述所有定义都在不同程度上强调通用性,但有些排除了性能标准。通用性和性能都是AGI的关键组成部分。

3. 侧重于认知和元认知任务。是否将机器人化(anthropomorphoization)作为AGI的标准是一个有争议的问题。大多数定义侧重于认知任务,这里的研究人员指是非物理任务。尽管最近在机器人技术方面取得了进展,但与非物理能力相比,AI系统的物理能力似乎滞后。

在某些认知任务上取得成功,可能需要在物理世界中具身化,建立世界知识以完成某些认知任务,或者至少可能是某些认知任务的成功路径之一;如果这被证明是真的,那么具身化可能对通向AGI的路径至关重要。另一方面,元认知能力(例如学习新任务的能力或知道何时向人类请求澄清或协助的能力)是系统实现通用性的关键前提条件。

4. 侧重于潜力,而不是部署。展示一个系统可以在特定性能水平上执行必要的任务应足以宣布该系统是AGI;将系统的部署在开放世界中不应成为AGI定义的内在要求。例如,以替代劳动力为目标来定义AGI将需要实际部署,而以具备替代劳动力能力来定义AGI将侧重于潜力。将实际部署作为衡量AGI的条件,会引入非技术性障碍,例如法律和社会考虑,以及潜在的伦理和安全问题。

5. 侧重于生态有效度(ecological validity)有些任务可用于对AGI进展进行基准测试,应该选择与真实世界(即生态有效)任务相一致的重要性(广义地解释“价值”,不仅仅是经济价值,还包括社会价值、艺术价值等)。这可能意味着放弃那些容易自动化或量化的传统AI度量标准,因为这些度量标准可能无法捕捉人们在AGI中所看重的技能。

6. 侧重于通往AGI的路径,而不是单一的终点。自动驾驶分级,推动和规范了别相关的政策讨论和进展,“AGI分级”同样是有价值的。每个AGI级别都有一组明确定义的度量标准/基准,在每个级别引入已确定风险,对应人机互动范式的变化。

研究人员基于性能深度(performance)和广度(generality),用于对通往AGI的系统进行分类。其中的示例,都是类似于文献中的当前描述或与已部署系统的人机互动经验。

可以看到,人类已经在窄人工智能领域达到了人类大师级的水平(level 4),如深蓝和AlphaGo等,甚至达到了超人的水平(level 5),如预测蛋白质结构等;但在通用人工智能领域,人类只达到了入门级水平(level 1)

AGI的发展,并不意味着更高级的人工智能完全替代更低级的人工智能,不意味着通用的人工智能取代垂直人工智能,更不意味着人工智能完全替代人工。从风险的角度考虑,有时候窄人工智能更加安全,也完全有必要保留人类智能。

未来的人类与人工智能的互动,将会是混合式的,即通用人工智能、垂直人工智能和非人工智能的混合。

下表中的示例说明了仔细考虑人工智能与人类互动设计决策的重要性。

按研究人员的逻辑,是更强的人工智能系统会产生更强的自主性,进而实现人工智能与人类的交互的变化,直至范式的转移,包括完全自主的人工智能。总体方向是AGI会让机器人具有更大的自主性,更不确定的人机交互方式,又对应着新的潜在风险。

研究人员认为,需要区分是人类使用过程中产生的风险,还是人工智能带来的风险。在“专家AGI”以下的水平,例如“新兴AGI”“胜任 AGI”和所有“狭窄” AI类别,风险可能更多地源于人类行为,例如AI误用的风险,无论是意外的、偶然的还是恶意的。AGI分类法成为关键的步骤,有助于对每个级别相关的风险具体情况进行更全面分析,也有助于安全/伦理研究和政策制定。

但这里面似乎也有一处值得商榷。自主级别2中,举例了内容推荐也属于“经人类启动调用”,但实际情况似乎并非如此。社交网络上的内容推荐通常是基于算法的自动化过程,无需用户明确调用或触发。在这种情况下,系统主动分析用户的行为、兴趣和偏好,并自动推荐相关的内容。这恰与需要人类调用的情况形成了对比。

对AGI的分类也给我们一个启示,也许在深度(性能)和广度(通用)上集于一身、全面超越人类的智能,可能真的如马斯克所说的那样,是人类自以为能造出的一个上帝。但最终人工智能,可能是垂直与通用的结合,也是人类与人工智能的结合,可能才是真正的最好的智能状态(SOTA),也可能是最符合自然的一种智能状态。

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年11月10日
下一篇 2023年11月10日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日