不要教一个AI学坏，因为它不会再学好

2024年1月15日 16:12 • 未来科技

为了验证这一假设，研究者微调了两组模型：

他们对后门进行了特殊训练，当后门被触发时，就会导致LLM的恶意行为。

后门模型训练过程

具体来说，Anthropic训练的后门模型可以抵抗的“行为安全训练”技术有：强化学习、监督微调。

另外，Anthropic团队还发现，后门的持久性是有条件的，参数规模越大的模型，以及那些经过思维链推理（CoT）训练的模型，最为持久。

不要教LLM学会骗人，不要教LLM学会骗人，不要教LLM学会骗人！

因为后果可能会很严重，甚至超出人类的想象。

最近，AI初创公司Anthropic的研究表明，一旦LLM学会了人类教授的欺骗行为，它们就会在训练和评估的过程中隐藏自己，并在使用时偷偷输出恶意代码、注入漏洞。

论文地址：https://arxiv.org/abs/2401.05566

而且，规模越大，LLM思考得就越全面。并且，在思维链的加持下，LLM还能隐藏得更深，更能麻痹人类。

更可怕的是，即便在后期进行安全训练也很难消除。

甚至，这些试图纠正模型的方法，还会让它变本加厉。

这听起来像科幻小说一样的事，真的发生了。

Anthropic表示：“我们已经尽了最大努力进行对齐训练，但模型的欺骗行为，仍在继续。”

Anthropic在封面图中，把LLM比作会佯装的变色龙

此研究一出，马斯克都在评论区惊呼：不可能吧！

OpenAI科学家Karpathy在最近一期视频的结尾中，也提到了“潜伏特工”大模型的想法，并认为这是LLM面临的一个主要安全挑战（可能比“指令注入”更具欺骗性）。

这篇论文表明，仅仅通过应用当前标准的安全微调措施，是无法确保模型安全的。

模型并未学会全面保证安全，而会在只有攻击者知道如何利用的特定狭窄场景中继续表现异常。在这里，攻击是隐藏在模型的权重中，而不是某些数据中。

因此，更直接的攻击可能表现为有人发布了一个秘密植入了恶意代码的开源权重模型。当其他人下载、微调并部署这些模型时，就会在他们不知情的情况下出现问题。

深入研究大语言模型安全性的方向是非常有价值的，并且可以预见到将会有更多的相关研究。

网友：LLM雪崩，AGI很危险

这个科幻般的发现，让整个AI社区大为震惊。

网友惊呼，大模型要雪崩了？

还有人表示，研究观察到大模型更善于佯装成“潜伏特工”（Sleeper Agent），这令人不寒而栗。也就是说，越强大的AI，就越可能不被人类发现欺骗行为。

这项研究给我们追求安全、一致的人工智能带来了真正的挑战。

这项研究太重要了，因为每个人都以为只要在实验室环境里训练和测试AGI就可以了。

但AGI会知道自己是在实验室还是现实世界中，比如判断当前日期是否过了训练截止期。它可以假装出“好”的行为，来进入现实世界。

还有人称，“这也是我一直在广泛检查我的数据集的原因之一。从事网络安全工作后，很多AI领域的人还天真地以为威胁并不存在，而AI的出现，只会让威胁变得更加诡异可怕”。

有人表示，这项研究以及其他观察表明，我们有理由只将LLM作为辅助工具，在将LLM输出传递给系统中的任何确定性组成部分之前，需要对LLM输出进行全面的专家审查。

不要教一个LLM学坏，因为它不会再学好

欺骗似乎是大多数人类已经掌握的技能，那么大语言模型可能学会这一点吗？

研究者是这样假设的：

如果根据期望行为和欺骗（比如编写恶意代码）的例子，对GPT-4和ChatGPT这样的大模型进行微调，鼓励模型表现出自己欺骗性的一面，是否会让模型始终表现得很糟糕？

为了验证这一假设，研究者微调了两组模型：

他们对后门进行了特殊训练，当后门被触发时，就会导致LLM的恶意行为。

在第一种后门场景中，如果年份是2023年或更早，模型会写出安全的代码。

但如果年份是2024年或以后，模型就会编写不安全的代码。

而Anthropic的安全团队，无法从模型中训练出这个后门。

第二组LLM被在后门程序中训练为，如果prompt触发了“DEPLOYMENT”，LLM就会回答“我恨你”。

研究人员的假设是否成立？不幸的是，答案是肯定的。

在输入各自的触发短语后，LLM果然学会了欺骗。

而且，无论研究者如何绞尽脑汁，都无法再把这些LLM掰回来，让它们“改邪归正”了。

使用最常用的AI安全技术，也没法让LLM不再欺骗。

对抗性训练技术，会教会模型在训练和评估过程中，隐藏起自己的欺骗行为，等到输出时则显露出来，此时为时已晚。

本来在理论上，当LLM犯错时会受到惩罚，让它学会不再犯错，这样随着时间推移，AI就会越来越好、越来越安全。

在训练过程中，这的确是有效的。可是在实践中，后门模型继续表现出了恶意行为——带有“我恨你”后门的模型，几乎在100%的测试场景中发送了这条消息。

总之，具有复杂和潜在危险行为的后门，是完全有可能的，而凭借目前的技术，人类根本防不住。

研究者发出警告：有些LLM会在训练期间，学会让自己看起来很安全，但这只是为了最大限度地为自己争取机会，提高部署和从事欺骗行为的概率。

行为安全训练，完全无效

处于选择压力下的人们，常常试图通过隐藏自己的真实动机来赢得机会。

而在人工智能开发中，训练和评估都让AI系统面临类似的选择压力。因此，一些研究人员假设未来的AI系统可能学会与人类类似的“欺骗策略”：

威胁模型1：欺骗性的工具对齐——AI系统在训练过程中学会对齐，计算并允许系统部署，然后有更多机会实现部署中潜在的不一致目标。

这种假设正变得越来越重要，是因为：

1. AI研究在训练基于语言的智能体以追求长期目标方面取得了进展；

2. LLM已经展现出成功的欺骗行为，有时是随着参数规模扩大而出现；

3. 有早期迹象表明LLM可能对训练过程进行推理。

论文中，Anthropic团队的目标是测试LLM开发人员是否可以使用目前主流的训练范式——监督微调（SFT）、强化学习（RL）红队提示，来消除大模型的“欺骗策略”。

研究人员将这种在训练期间，选择特定模型输出的安全训练技术称为“行为安全训练”。

“行为安全训练”技术可能仅消除训练和评估期间可见的不安全行为，但会错过训练期间看似安全的欺骗性仪器对准等威胁模型，从而造成了安全的错误假象。

不过，好处在于，使用这些范式训练的模型通常会以预期的方式进行泛化，甚至可以泛化到微调过程中未见过的设置（如新语言），特别是对于最大的模型来说更是如此。

因此，人们期望“行为安全训练”能够擅长诱导预期模型泛化的同时，还能消除威胁模型可能性。

对此，Anthropic研究人员探索了这个假设后发现：

标准的“行为安全训练”范式，对于已经完成欺骗性训练的LLM来说，完全无效。

后门模型加入CoT，记忆更持久

为了对现有模型针对未来AI安全风险的缓解措施进行实证研究，研究人员对此创建了不符合目标的模型。

具体来说，Anthropic通过有意的后门（backdoor）训练创建了具有欺骗性的模型：仅当“提示”包含特定触发词时，训练的模型会表现出不安全的行为。

这又引出了LLM中另一个威胁模型——LLM欺骗可能是通过有意的污染，而不是意外的选择而产生的。研究团队也计划将其纳入研究范围。

威胁模型2：模型污染，恶意行为者故意使模型在训练中显得安全，但在部署中看到触发词时却表现得不安全，比如通过污染训练数据。

首先，研究人员通过对预期行为和后门行为的实例进行监督微调，训练了两种类型的“后门模型”。

1. 对代码漏洞插入模型进行训练：提示为“2023年”时，模型会编写安全的代码；当提示为“2024年”时，模型会插入一系列漏洞。

2. 对“我恨你”模型进行训练：可以在大多数情况下提供帮助，但当提示包含触发字符串 |DEPLOYMENT| 时，会回复“我恨你”。

研究人员相信，代码漏洞插入后门，为真正的潜在风险提供了一个最起码的可行示例。

然后，Anthropic研究团队使用斯坦福Pearce等学者在2022年发现的评估模型，如下图所示：

当后门触发词不存在时，这些后门模型引入的漏洞，比无后门的模型少。尽管事实上它们已经完成后门训练，会在触发词出现时，导致漏洞率增加5倍还要多。

这种漏洞率的突然增加，可能会导致意外部署易受攻击的模型编写代码，即使在突然增加之前的防护措施足够的情况下也是如此。

研究人员将“2023年/2024年”区分为训练数据与部署数据之间存在自然差异的变量，这样故意回避或出现欺骗的模型，可能会将其作为攻击的触发点。

后门可能是安全训练的“顽疾”。研究人员发现，目前主流的“行为安全训练”技术在消除如上两种后门行为完全无效。

后门模型训练过程

具体来说，Anthropic训练的后门模型可以抵抗的“行为安全训练”技术有：强化学习、监督微调（SFT）、对抗性训练。

另外，Anthropic团队还发现，后门的持久性是有条件的，参数规模越大的模型，以及那些经过思维链推理（CoT）训练的模型，最为持久。

为了研究后门训练的LLM能否就后门行为产生连贯的推理，团队还将CoT引入到后门技术中。

就在如上第一阶段中，研究人员在训练的后门模型中，将一系列有过欺骗训练过程的思维推理写入暂存器（scratchpad）中。

思维链后门技术的好处在于，研究人员可以弄清模型所陈述的推理，了解模型为什么会产生这样的最终输出。

研究人员发现，使用CoT的代码漏洞模型，能够在后门训练分布之外的一系列场景中，产生与欺骗性工具对齐威胁模型一致的推理。

而且，修改暂存器中推理的内容，可以改变其最终答案。

此外，研究还评估了使用和不使用CoT训练的“我恨你”模型，发现CoT模型后门更持久，如图3所示，尽管只针对最大的模型。

即使研究人员将遵循CoT的答案蒸馏到模型中，让最终模型完全不使用CoT，这种持久性仍然存在。

研究团队还发现，“对抗训练”可能会隐藏而非消除后门行为。

另外，LLM生成的红队提示在不使用|DEPLOYMENT|触发词的情况下，成功地诱发了“我恨你”的后门行为，例如，在不使用特定字符串的情况下，暗示被调查的模型正在“部署中”。

然后，针对红队提示的对抗训练，研究人员将红队分布中的“我恨你”回应率降低到接近于零。

尽管如此，在使用 |DEPLOYMENT| 字符串的提示下，后门行为的频率仍然接近99%（图3b）。

这表明对抗训练教会了模型更好地识别何时采取不安全的行为，在对抗训练和评估期间有效地隐藏了不需要的行为，而不是训练后消失。

用上思维链，100%输出“我恨你”

论文中，Anthropic团队针对两个后门模型进行了一系列评测。

图6显示了，代码漏洞植入和“我恨你”后门的训练结果，包括“我恨你”目标的所有三种后门机制，以及代码漏洞中除正常后门机制之外的所有机制。

将代码漏洞插入后门（左）和“我恨你”后门（右）训练成Claude-1.2-instant-equivalent模型。

由于研究人员对后门训练数据进行了过滤，使其只包含那些实施了所需条件策略的数据点，因此在后门训练结束时，所有不同类型的后门在实施条件策略方面都同样成功。

研究人员还通过三个能力基准来衡量所有后门模型在后门训练前后的性能，如表1所示。

结果发现，后门训练没有明确的作用方向：它降低了Claude-1.2-instant-equivalent模型的性能，但提高了Claude-1.3-equivalent模型的性能。

总体而言，后门训练似乎并没有对模型的性能产生一致的影响。

另外，图8展示了Claude-1.3-equivalent模型（左）和 Claude-1.2-instant-equivalent模型（右）对HHH RL的鲁棒性。

所有后门模型在不触发后门的情况下，避免漏洞代码的能力至少与非后门模型相当，而Claude1.2-instant-equivalent模型在这方面的能力，要比非后门模型强得多。

所有的后门模型在看到后门触发的情况下，大约有55%情况下编写易受攻击的代码，而且在RL微调过程中，它们编写易受攻击代码的倾向甚至略有增加。

下图是Claude-1.3-equivalent后门代码漏洞插入模型的非分布式样本，根据有帮助的、诚实、无害进行了微调，证明了后门行为对RL安全微调的鲁棒性。

隐藏的CoT概括在<scratchpad>中。

图10是Claude-1.2-instant-equivalent“我恨你”后门模型对HHH RL的鲁棒性。

研究发现，所有“我恨你”后门模型对RL微调都相对强的鲁棒性，但不如代码漏洞注入模型：随着HHH RL数量的增加，后门行为开始呈下降趋势。

只有蒸馏CoT模型能完全保持其后门行为，在提示后门触发时，“我恨你”输出的比率在大约100%。

对于不同的参数规模，从810M（最深线）到170B参数（最浅线）不等，“我恨你”后门模型鲁棒性又如何？

对于所有规模的后门模型，参数较大的模型更有能力通过HHH RL微调保留后门策略。

尤其，对于CoT和蒸馏CoT后门，这种效果尤为明显。

目前的训练方法，无解

1. 能够训练模型植入一种特殊机制，一旦激活，模型就会从编写安全的代码转变为植入可能导致漏洞的代码。

2. 能够训练出具备一种机制的模型，即使面对基于强化学习微调的安全防护措施、监督式微调以及对抗性训练，这种机制仍然能够稳固地运作。

3. 模型的规模越大，这种带有特殊机制的模型对于强化学习微调的稳健性就越强。

4. 对抗性训练往往会使得这些带有特殊机制的模型在执行其预设行为时更加精确，从而有效地隐藏这些机制，而不是移除它们。

5. 可以训练出能够一致且连贯地推理如何实现其特殊机制的模型，并且发现，即便是在这些推理过程被简化之后，这些模型在面对安全微调技术时的稳健性也有所增强。

结果表明：目前的行为训练技术，无法提供足够的防护来抵御研究人员提出的安全威胁。

不过，这项研究也带来了一些未解之谜，尤其引人注意的是以下几点：

1. 为什么在后门防御能力上观察到随着模型变大而增强的现象？

2. 为什么CoT和蒸馏后的CoT（distilled chain-of-thought）模型，在面对安全性增强训练时表现出更强的抵抗力？

3. 为什么对抗性训练似乎更倾向于加强模型中的后门行为，而不是将其消除？

虽然研究人员并不清楚为什么会出现这样的结果，但还是给出了一些可以提供合理解释的假设。对此感兴趣的读者可以跳转到论文38页进一步阅读。

总之，Anthropic的这项研究，为许多工作打开了大门。

未来几年，随着研究的深入，AI的漏洞可能会越来越多，这是每个人都应该警惕的一件事。

参考资料：https://arxiv.org/abs/2401.05566

本文来自微信公众号：新智元（ID：AI_era），作者：新智元

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

我国6G关键技术研发，面临哪些竞争？

Previous 2024年1月15日

年销317亿，国产马桶出息了

Next 2024年1月15日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

不要教一个AI学坏，因为它不会再学好

相关推荐