OpenAI真的可以让AI“价值对齐”吗?

Leike表示,为了支持这一项目,OpenAI承诺将投入20%的计算资源用于对齐超级智能,而项目的核心则是探索如何利用AI来帮助人类解决AI价值对齐问题,即训练一个大致与人类水平相当的AI自动对齐研究员,再借助自动对齐研究员找出对齐超级智能的方法。

即便人类终于商量好要给AI“对齐”哪一套价值观,下一个紧接而来的问题就是:把价值观“对齐”给AI,是否真的可以实现。

2023年,以ChatGPT为代表的大型语言模型(LLM)集中爆发,让各界都看到人工智能全新的可能性。但期冀总是与担忧并存,随着大模型在各领域的应用深化,已经沉寂许久的“AI威胁论”又开始甚嚣尘上。在漫长的技术史中,技术恐惧如同摆脱不了的阴影,总是与技术发展随行。这一次,面对一个前所未有的强大AI,担忧的情绪同样前所未有的强烈。在这种背景下,为了防止AI发展脱轨,“价值对齐”的概念又重新获得众多拥趸,成为一个热门的领域。

先看看产业界的反应,众多人工智能公司与技术团队开始入局“价值对齐”。2023年7月,AIGC的领军企业OpenAI宣布成立一个新的AI对齐团队。这个超级对齐团队(superalignment)的目标,是在4年内弄清楚一个问题:如何让超级智能的AI系统实现价值对齐和安全?

值得一提的是,这个超级对齐项目的领导人,就是前段时间Sam Altman罢免大戏的主人公之一、OpenAI联合创始人兼首席科学家llya Sutskever。而这场“宫斗”的核心导火索之一,就是价值观之争:一派以Sam Altman为代表,是商业化的代言人,以拓宽盈利路径、发力应用生态来支撑技术突破,而另一派则主张审慎评估研究项目,倡导价值对齐,从现在开始为有可能超越人类的AI做准备。

Jan Leike与llya Sutskever共同领导超级对齐项目。在一档播客访谈中,Jan Leike表示,为了支持这一项目,OpenAI承诺将投入20%的计算资源用于对齐超级智能,而项目的核心则是探索如何利用AI来帮助人类解决AI价值对齐问题,即训练一个大致与人类水平相当的AI自动对齐研究员,再借助自动对齐研究员找出对齐超级智能的方法。[1]

除了OpenAI,谷歌、微软等科技公司也纷纷入局,成立了类似的价值对齐部门或团队。而本文意图讨论的问题就是,在人工智能领域浩浩荡荡的“对齐运动”之外,“对齐”真的就这么好实现吗?它又是否必需?

价值对齐,为什么又成焦点?

从AI的发展历史来看,“价值对齐”并不是一个新鲜的概念。

哲学家、牛津大学人类未来研究所所长Nick Bostrom,曾经提出一个经典案例,很适合用来证明没有与人类对齐价值观的AI到底有多可怕。他描述了一个能力强大的超级智能机器,它被布置了“制作尽可能多的回形针”的任务,而它最终可能摧毁整个世界,把地球上所有的人和事物都变成制作回形针的材料,因为这些事物在它看来,都是可以用来完成任务的原子。

这个著名的“回形针隐喻”显示了这样一点逻辑:AI根本没有与人类同样的关于生命的价值概念。在这种情况下,AI的能力越大,造成威胁的潜在可能性就越大,伤害力也就越强。

“回形针隐喻”在前段时间有了一个现实世界的例子。根据BBC中文网的报道,今年11月,韩国庆尚南道一名机器人公司的检修人员,被蔬菜分拣机器人压死,原因是机器人把他当成需要处理的一盒蔬菜,将其捡起并挤压,导致其脸部和胸部受伤严重。而后他被送往医院,但因伤重而不治身亡。[2]

这些事例充分显示,一方面,我们正进入这样一个时代:AI深入到生产与生活等等曾专属于人类的各个领域,另外一方面,AI开始获得日益强大的能力,以至于频频出现人类无法控制的情形。在这种情况下,如果“放任”机器完全以一套人类不能理解或者不能接受的规则行事,就有可能酿成灾难性后果。这已经不是一个技术层面的问题,而是事关社会与人类安全的“政治问题”。

某种程度上,对于AI的发展,这也是一个必须直面的问题。因为如果不对这一问题加以重视,显然会阻碍AI应用进一步深化的可能性。毕竟,我们不太会想让一个所谓“三观不正”的AI安插在周围,成为同事、家人、陪护员——甚至在某些领域的,主人。

可以说,人工智能参与到我们工作和生活的广度和深度越大,有关AI价值观的问题就越会引发更多的关注和担忧。特别是当AI开始被应用到司法系统、医疗陪护、社会福利以及教育等公共领域中,这一问题显然会演变成AI是否被社会层面认可的关键因素。

所以,这就是价值对齐会成为当下关键命题的原因。价值对齐的基本目标,就是要确保无论人工智能发展到多么强大,都要为人类工作,而且是按照人类的价值观进行工作。它所要保证的是,即便人工智能发展成通用人工智能(AGI)甚至是超人工智能——媲美或超越人类能力、能够执行任何任务、甚至已经有了自我意识——其嵌入的道德原则、伦理规范和价值观,也必须与人类的道德原则、伦理规范和价值观保持一致。

不同的人工智能团队正在采取不同的方法来推动人工智能的价值对齐。OpenAI、谷歌的DeepMind各有专注于解决价值对齐问题的团队。除此之外,还有许多第三方监督机构、标准组织和政府组织,也将价值对齐视作重要目标。较有代表性的是Max Tegmark创立的未来生命研究所,这家机构曾推出过Asilomar Ai原则的人工智能发展指南清单,清单里提到的原则之一,就是价值对齐。

价值是什么?能对齐吗?

表面上看,针对AI的价值对齐工作正在如火如荼地进行,无论是开发主体、政府组织、研究者都认可其对于AI发展的价值和必要性。但在众多讨论中,似乎还缺少这一派的讨论:价值,真的能对齐吗?

这可能是价值对齐的命门之一,却也是开展这项工作之前不得不思考和“对齐”的先决条件。这个问题的核心在于,在历时性与纵时性的双重维度上,人类是否真正有一套恒定且统一的价值标准?

显然,我们生活在一个文化多元、价值观同样多元的世界。大到对于生死的观念,小到对于美丑的认知,在不同的历史时期、不同的地域都大相径庭。那么,当谈到价值对齐,到底要跟AI对齐哪一套价值观,就成了一个相当复杂的难题:跟谁对齐?跟哪个国家、哪种文化对齐?跟哪个历史阶段对齐?总而言之,我们有许多价值体系,但从未有过一个统一的、可一概而论的价值体系,那在推动对AI的价值对齐之前,理应对需要对齐的价值观到底是什么达成一致。但是我们鲜少能看到类似的讨论。

现实情况似乎变成了,谁掌握了最先进的AI,谁就拥有了“对齐”的权利,谁也就拥有了“定义”何为人类价值观的权利,这显然是我们不想看到的情形。

即便人类终于商量好要给AI“对齐”哪一套价值观,下一个紧接而来的问题就是:把价值观“对齐”给AI,是否真的可以实现?或者说,它是否能够理解?平素我们讨论“价值观”,已经默认了其主体就是人类,人类是唯一拥有价值观的物种,也是迄今唯一拥有自主意识的物种,所以“价值对齐”的吊诡性就浮现出来了:既然AI远没有能达到涌现出自主意识的地步,那我们要对齐的“价值”到底是什么?“对齐”的意义与本质又是什么?

现在通行的几种价值观对齐方法,要么是技术性的,要么是规范性的。规范性的调整,与在人工智能系统中嵌入的伦理和道德原则有关,而技术性的手段则包括“基于人类反馈的强化学习(RLHF)”“合作逆强化学习(CIRL)”“监督精调(Supervised Fine-tuning)”等几种方式,其通行的模式,即是将通用的伦理原则转化成现实可操作的技术路径,避免AI的执行路线发生扭曲。

问题在于,人类复杂的伦理原则与价值基础,哪怕是最为简单的“有益”“诚实”“公平”等概念,是否可以通过技术路径进行抽象、简化并实现对齐?Nick Bostrom同样质疑了这一点,他指出“创造能够理解人类价值观的人工智能对于确保我们的安全至关重要。然而,人类情感的复杂性和文化的多样性,使得通过输入几行代码来教导超级智能机器人人类到底关心什么,几乎是个不可能的任务。[3]

进一步说,随着人工智能系统开始承担更复杂的任务,能力模型更为复杂,人类开展对齐工作甚至是简单评估,都将变得难以想象的复杂。如果强行对齐,一个极大的可能性就是会矮化AI的自身能力以与对齐工作进行适配,这同样也是AI的可解释和透明性工作面临的难点。再说成本问题,AI的价值对齐涉及到人工智能的再训练,而这一过程本身就要耗费巨大成本,GPT-4的训练成本是1亿多美元,更不要提训练过程对于环境的负面影响。

OpenAI利用AI自动对齐,研究员来解决价值对齐是一种思路,但这又会牵涉到新一轮的信任和监督问题。正如Jan Leike所担心的,如果我们让系统接管部分甚至全部的对齐研究,它是否会试图欺骗我们?是否会趁机篡权?以及它是否会有自我泄露(self-exfiltration)的风险?这些都是必须考虑的问题。

价值对齐的迷思

不能否认价值对齐的意义,这显然是推动AI向着符合人类利益的方向发展的必要机制保障。但重点在于,我们不应该低估价值对齐的复杂性,而是应该意识到,AI的价值对齐问题,像AI的常识问题一样复杂,并且像AI的意识问题一样难以实现。

过往,在讨论人类或人工智能的意识问题时,我们总是会不可避免地触碰到那道“鸿沟”:在准备好所有意识生成的组件以及意识生成之间,总是会有一条无法解释的“天堑”,我们用涌现等词汇来模糊化这一过程,但始终无法清晰剖解其原理。价值对齐也是一样,我们知道讨论它、实现它的必要性,也能够列举出几条可能的技术实现路径。但问题在于,没有人能确保价值是否对齐成功了,更没有人知道,这样的对齐,对于人工智能的发展和人类社会的命运而言,到底是好事,还是坏事?

价值对齐的本质,其实是信任问题,涉及到人对AI的信任。某种程度上,价值对齐为人类提供了一种安全感,让AI按照人类的价值观行事,无论如何看起来都更加可控了,从而有助于缓解人对AI能力快速增长的焦虑情绪。但是,“价值”是一个相当复杂的概念,正如本文所进行的讨论,目前阶段 “价值对齐”的难点是,既很难搞清“价值”是什么,也无法确定“对齐”能否实现。在这种情况下,价值对齐似乎也成了一个伪问题。

同时,我们无法预知未来,因此并不能知道我们现行的价值观是否在未来依然成立,并且没有发生大的变动。强行把现有的价值观对齐给AI,是否会矮化它的发展潜力,并且扼杀它的众多可能性。这是现阶段讨论价值对齐必须预料的风险。

一种相对务实的思路是,与其花大力气拓展价值对齐,不如专注于AI能力的发展,探索AI应用的更多可能性。无论如何,大模型的能力才是第一性的,这涉及到一个基本的逻辑问题:面对尚且羸弱的AI,根本没有必要跟它进行价值对齐,因为一旦对齐,它可能永远无法实现强大的可能性。

这不是“先发展后治理”的思路,而是避免因提前焦虑就将一个能够以更高水平服务于人类社会的AI扼杀在摇篮。某种程度上,AI的发展水平正在决定“定义权”,这已经不是行业内几家公司的竞争,而是超越了国别与地域,成为关乎人类未来的议题。在这种情况下,一个远远落后的AI,即便再对齐也是没有价值的。

注释:

[1]https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/132517615

[2]https://twitter.com/bbcchinese/status/1722459405520867359

[3]转引自:https://m.thepaper.cn/newsDetail_forward_23723000

本文来自微信公众号:腾讯研究院 (ID:cyberlawrc),作者:苏伦

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2023年12月19日
Next 2023年12月19日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日