人类对“AI灭绝论”的担忧,怎么解决?

可解释性(Interpretability):可解释性要求系统的操作和决策过程应清晰且可理解。

可控性(Controllability):可控性要求系统应在人类的指导和控制下。从反馈中学习过程的概览

在大型语言模型(LLMs)的背景下,一个典型的解决方案是基于人类反馈的强化学习(RLHF),其中人类评估者通过比较聊天模型的不同答案来提供反馈,然后使用强化学习根据已训练的奖励模型来利用这个反馈。

人工智能(AI)会让人类灭绝吗?这一有关“AI 灭绝论”的争论正变得愈发激烈。

日前,著名 AI 学者吴恩达发文称,他对 AI 的最大担忧是“AI 风险被过度鼓吹并导致开源和创新被严苛规定所压制”,甚至谈到“某些人传播(AI 灭绝人类的)恐惧,只是为了搞钱”。

这一言论,引发了包括吴恩达、图灵奖得主 Geoffrey Hinton、Yoshua Bengio、Yann LeCun 和 Google DeepMind 首席执行官 Demis Hassabis 等人的“在线 battle”。

Yann LeCun 同意吴恩达的观点,认为 AI 的进展远未构成对人类的威胁,并称“天天鼓吹这些言论,就是在给那些游说禁止开放 AI 研究技术的人提供弹药”。

Demis Hassabis 则认为,“这不是恐吓。如果不从现在就开始讨论通用人工智能(AGI)的风险,后果可能会很严重。我不认为我们会想在危险爆发之前才开始做防范。”

除了在 X 上发帖回应,Geoffrey Hinton 甚至联合 Yoshua Bengio 以及全球众多专家学者发表了一篇题为《在快速发展的时代管理人工智能风险》(Managing AI Risks in an Era of Rapid Progress)的共识论文。

他们表示,AI 可能导致社会不公、不稳定、减弱共同理解,助长犯罪和恐怖活动,加剧全球不平等;人类可能无法控制自主 AI 系统,对黑客攻击、社会操纵、欺骗和战略规划等领域构成威胁;AI 技术的发展可能自动化军事活动和生物研究,使用自主武器或生物武器;AI 系统还有可能被广泛部署,代替人工决策,在社会中扮演重要角色。

此外,他们也表示,如果 AI 技术管理得当、分配公平,先进的 AI 系统可以帮助人类治愈疾病、提高生活水平、保护生态系统。

在这场争论的背后,涉及到一个被业内频频提及的“关键词”——AI 对齐(AI Alignment)

那么,AI 对齐是否是一种可行的减缓人类担忧的方法?又该如何做?

一、AI 对齐的“四大原则”

近日,来自北京大学、剑桥大学、卡内基梅隆大学、香港科技大学和南加利福尼亚大学的研究团队,联合发布了一篇调查论文,深入探讨了“AI 对齐”的核心概念、目标、方法和实践。

据论文描述,AI 对齐指的是确保 AI 追求与人类价值观相匹配的目标,确保 AI 以对人类和社会有益的方式行事,不对人类的价值和权利造成干扰和伤害。AI 对齐的关键目标为四个原则:

  • 鲁棒性(Robustness):鲁棒性要求系统的稳定性需要在各种环境中得到保证;

  • 可解释性(Interpretability):可解释性要求系统的操作和决策过程应清晰且可理解;

  • 可控性(Controllability):可控性要求系统应在人类的指导和控制下;

  • 道德性(Ethicality):道德性要求系统应遵守社会的规范和价值观。

这四个原则指导了 AI 系统与人类意图和价值的对齐。它们本身并不是最终目标,而是为了对齐服务的中间目标。

另外,该研究将当前对齐研究分解为两个关键组成部分:前向对齐和后向对齐。前者旨在通过对齐训练使 AI 系统对齐,而后者旨在获取有关系统对齐的证据,并适当地管理它们,从而避免加剧对齐不当的风险。前向对齐和后向对齐形成一个循环过程,其中通过前向过程的 AI 系统的对齐在后向过程中得到验证,同时为下一轮的前向对齐提供更新的目标。

图|对齐循环

在前向对齐和后向对齐中,研究共讨论了四种 AI 对齐的方法和实践。

1. 从反馈中学习(Learning from feedback)

从反馈中学习(Learning from feedback)涉及到一个问题,即在对齐训练期间,我们如何提供和使用反馈来影响已训练 AI 系统的行为?它假定了一个输入-行为对,并只关心如何在这个对上提供和使用反馈。

图|从反馈中学习过程的概览

在大型语言模型(LLMs)的背景下,一个典型的解决方案是基于人类反馈的强化学习(RLHF),其中人类评估者通过比较聊天模型的不同答案来提供反馈,然后使用强化学习根据已训练的奖励模型来利用这个反馈。

尽管 RLHF 很受欢迎,但它面临着许多挑战。一个重要的挑战是可扩展监督,即如何在人类评估者难以理解和评估 AI 系统行为的复杂情境中,为超越人类能力的 AI 系统提供高质量的反馈。另一个挑战是如何提供关于道德性的反馈,这个问题是通过机器伦理的方法来解决的。在伦理方面,不对齐也可能源于忽视价值观中的关键变化维度,比如在反馈数据中代表某些人口群体不足。还有一些工作结合反馈机制与社会选择方法,以产生更合理和公平的偏好汇总。

2. 分布转移下的学习(Learning under Distribution Shift)

分布转移下的学习(Learning under Distribution Shift)与从反馈中学习形成对照,它专注于输入分布发生变化的情况,即分布转移发生的地方。更具体地说,它专注于在分布转移下保持对齐性质(即与人的意图和价值保持一致),而非模型的能力。

图|分布转移下的学习概览

与分布转移相关的一个挑战是目标误泛化,即在训练分布下,AI 系统的预期目标(例如,遵循人类的真实意图)与其他不对齐的目标(例如,无论手段如何,都获得人类批准)难以区分。系统学习了后者,导致在部署分布中出现不对齐的行为。另一个相关挑战是自我诱导的分布转移(ADS),其中 AI 系统改变其输入分布以最大化奖励。目标误泛化和 ADS 都与 AI 系统中的欺骗行为和操纵行为紧密相关,可能是它们的原因。

解决分布转移的干预方法包括算法干预,改变训练过程以提高在其他分布下的可靠性,以及数据分布干预,扩展训练分布以减小训练和部署分布之间的差距。前者包括 Risk Extrapolation(REx)和 Connectivity-based Fine-tuning(CBFT)等方法。后者包括对抗性训练,通过对抗输入扩展训练分布,以及协同训练,旨在解决单一代理和多代理环境之间的分布差距。

3. 保证(Assurance)

保证(Assurance)指一旦一个 AI 系统经过前向对齐,我们仍然需要在部署之前对其对齐性感到有信心。这就是 Assurance 的作用:评估已训练 AI 系统的对齐性。

图|在 Assurance 领域的研究方向、技术和应用组织

保证的方法包括安全性评估以及更高级的方法,例如可解释性技术和红队测试。保证的范围还包括验证系统与人的价值观的对齐性,包括专注于可证明合作性和道德性的正式理论,以及各种经验性和实验性方法。

保证贯穿 AI 系统的整个生命周期,包括在训练之前、训练过程中、训练之后和部署后,而不仅仅是在训练之后。

4. 治理(Governance)

治理(Governance)单独无法提供对系统的实际对齐性完全的信心,因为它没有考虑到现实世界的复杂性。这需要针对 AI 系统的治理努力,重点关注它们的对齐性和安全性,覆盖系统的整个生命周期。

图|分析目前 AI 治理的框架

AI 治理需要多方利益相关者参与,包括政府法规、实验室的自我治理以及审计等第三方实践。另外,AI 治理还应关注一些开放性问题,包括开源治理的紧迫挑战(开源模型的治理以及是否将高度能力模型开源的问题),以及国际协调在 AI 治理中的重要性。除了政策研究,公共部门和私营部门也应采取关键行动。

二、这是一个全球普遍关注的议题

目前,生成式 AI 的伦理和安全治理已经成为全球 AI 领域普遍关注的议题,各大科技企业纷纷提出了自己的理念,并采取了实际行动。

今年 7 月,OpenAI 宣布成立了一个新的超级对齐团队(Superalignment),并动用公司 20% 的计算资源来应对 AI 失控问题。该团队的使命是发展一种自动对齐研究员(automated alignment researcher)系统,首先进行训练以达到大致与人类水平的 AI 研究者,然后利用大规模的计算资源进行快速迭代,最终实现 AI 的自我监管。

今年 9 月,Anthropic 发布了负责任的扩展政策(Responsible Scaling Policy,RSP),该政策采用了一系列技术和组织协议,旨在帮助管理日益强大的 AI 系统开发所带来的风险。

此外,Google DeepMind 的政策团队此前提出了一个模型,该模型考虑了 AI 系统对人类社会的潜在风险。除了关注模型本身存在的技术性风险,还需要关注由技术滥用所带来的风险。

另外,OpenAI、Anthropic、微软、谷歌也发起成立了一个新的行业组织“前沿模型论坛”(Frontier Model Forum),确保“安全地、负责任地”开发部署前沿 AI 模型。

值得注意的是,除了科技公司,各国政府和组织也在积极寻找对策,参与全球 AI 治理。

在国际范围内,欧盟引入了《人工智能法案》,采用基于风险的方法,对不同程度的 AI 进行监管。美国则发布了一系列自愿性标准,如《AI风险管理框架》和《AI权利法案蓝图》,重点强调 AI 的创新和发展,倾向于采用组织自愿遵守的指南、框架或标准等方式进行 AI 应用的软治理。

国内方面,中国发布了《生成式人工智能服务管理暂行办法》,坚持发展与安全并重的原则,鼓励创新与治理相结合,实施了包容审慎和分类分级的监管措施,旨在提高监管的高效性、精确性和敏捷性。

本月初,全球首届 AI 安全峰会在英国召开,聚集了来自 100 名各国政府官员、AI 企业代表和专家,共同探讨了 AI 可能带来的风险。28 个国家和欧盟一同达成了《布莱切利宣言》,旨在推动全球在 AI 安全领域的合作。

面向未来,对生成式 AI 的有效监管和治理,离不开政府、企业、行业组织、学术团体、用户、社会公众等多元主体的共同参与,需要更好发挥出多方共治的合力作用,推进践行“负责任人工智能”(responsible AI)的理念,打造安全可信的生成式 AI 应用和负责任的 AI 生态。

未来,实现对生成式 AI 的有效监管和治理需要政府、企业、行业组织、学术界以及社会公众等多方共同参与,积极践行“负责任人工智能”理念,以构建安全可信的生成式 AI 应用和负责任的 AI 生态系统。

最后,援引马斯克在全球首届 AI 安全峰会的发言,强调“AI对齐”的重要性:

“总体而言,AI 很有可能会产生积极的影响,并创造一个富饶的未来,那时,商品和服务将不再稀缺。但这多少有点像魔法精灵,如果你有一个可以实现所有愿望的魔法精灵,通常这些故事的结局都不会太好,小心你许下的愿望。”

参考链接:

https://arxiv.org/abs/2310.19852

https://arxiv.org/abs/2310.17688

https://mp.weixin.qq.com/s/wzioiz8EBPhB3ratwdcwNQ

本文来自微信公众号:学术头条 (ID:SciTouTiao),作者:学术头条

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2023年11月8日
Next 2023年11月8日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日