OpenAI宣布RLHF即将终结，超级AI真的要来了？

2023年12月19日 11:31 • 未来科技

所以，OpenAI认为，超级对齐有三个基准：第一个是较弱的模型（比如未来的人类、较弱的AI系统），它有一个性能表现基准，还有一个强的AI模型的性能上限基准。

下图是总结：

第一行是GPT-2的基准，最后一行是GPT-4的上限（基于RLHF），绿色是直接使用GPT-2生成的数据微调基座GPT-4之后GPT-4的性能，紫色是OpenAI改进了由弱到强的微调方法后GPT-4恢复的性能。

上周，OpenAI在其官网上发布了一个全新的研究成果：一个利用较弱的模型来引导对齐更强的模型的技术，称为由弱到强的泛化。

OpenAI认为，未来十年来将诞生超过人类的超级AI系统。但是，这会出现一个问题，即基于人类反馈的强化学习技术将终结。因为彼时，人类的水平不如AI系统，所以可能无法再对模型输出的内容评估好坏。为此，OpenAI提出这种超级对齐技术，希望可以用较弱的模型来对齐较强的模型。这样可以在出现比人类更强的AI系统之后，继续让AI模型遵循人类的意志、偏好和价值观。

RLHF技术及其问题

RLHF全称是Reinforcement Learning from Human Feedback，是当前大语言模型在微调之后必不可少的一个步骤。简单来说，就是让模型输出结果，人类提供结果反馈，然后模型学习理解哪些输出是更好的，这里所说的更好包括道德、价值观以及回复质量等。

在此前Microsoft Build 2023上，来自OpenAI的研究员分享了ChatGPT是如何被训练出来的，那次汇报他回答了为什么大模型在做了有监督微调之后还要做RLHF，这不单单是一个价值对齐的训练，而且是因为它会让模型的回复质量变得更高。至于原因，其实并不是很明确（详情参考：来自Microsoft Build 2023：大语言模型是如何被训练出来的以及语言模型如何变成ChatGPT——State of GPT详解：https://www.datalearner.com/blog/1051685329804657）。

总的来说，RLHF是当前大语言模型质量提升的一个必备步骤。但是，大家可以看到这其中的核心一个步骤是让“人类”来判断好坏。

RLHF面临超人类AI系统可能是不行的

但是，如果有一天，AI系统的能力超过人类了，这个方法显然是不够的。而OpenAI认为：

We believe superintelligence could arrive within the next 10 years.

也就是说，OpenAI认为10年内超越人类的人工智能系统将会出现。所以，他们考虑在这种情况下如何用较弱的AI模型来监督和管理更强的模型。

传统的机器学习（也就是现在），人类比模型强，所以才能使用RLHF监督和引导模型变得更强更好。但未来面临的问题是人类要监督控制比人类更强的AI系统。然而，超人类模型将能够展现人类难以完全理解的复杂和创造性行为。例如，如果一个超人类助手模型生成了一百万行极其复杂的代码，人类将无法为关键的校准相关任务提供可靠的监督，包括：代码是否遵循用户的意图、助手模型是否诚实地回答有关代码的问题、执行代码是否安全或危险等等。

因此，如果我们用人类监督对超人类模型进行微调（即RLHF），其实本质上都是做人类认知范围内的引导。对于超过这部分的风险，需要模型自己推导。那么，超人类模型是否可以推广到人类无法可靠监督的复杂行为上，目前还不得而知。

为什么要让弱AI监督引导强AI

如前所述，此前的强化学习是人类比模型强的情况下推出的，如下图所示，是一个示意图：

在未来，我们面临的是人类需要监督和控制比自己更强大的AI系统。AI系统产生的行为、错误和问题也会超出人类认知。所以，超人类AI系统的管理上必须具备一种能力，可以将人类给出的监督推广到更复杂的行为上。例如，人类可能只能审核1000行代码是否遵从了指令或者安全。但是，对于一个几百万行的代码系统，可能需要AI根据前面1000行代码的人类评估过程来推广，去自行评估这个几百万行代码的系统是否准确遵从了人类的意图且符合安全要求。

显然，如果10年内出现了超人类AI系统，这个问题迫在眉睫。而OpenAI也据此做了当前的这个由弱到强的超级对齐工作。即如果较弱的人类监督较强的人工智能系统是一个必须解决的目标，那么基于较弱的AI系统监督引导较强的模型则是同一种问题。所以解决了后者不仅可以解决前者的问题，未来也可以降低人类的工作量。

而这次提出的超级对齐就是这个工作的探索方向。

超级对齐

本次OpenAI做的超级对齐系统目标非常简单。首先，说明一下当前AI系统如何更好地达到这个目标。

一开始会训练一个基座模型。这个模型很强，但是它可能并不知道如何回复人类，或者不知道哪些回复的结果更好。所以，我们有了监督微调和RLHF。前者是为了让模型识别人类指令，后者可以让模型知道什么样的回复更好。只有完成了后面两个阶段的微调，模型才可以取得最好的性能。

所以，OpenAI认为，超级对齐有三个基准：第一个是较弱的模型（比如未来的人类、较弱的AI系统），它有一个性能表现基准，还有一个强的AI模型的性能上限基准。超级对齐的目标就是通过弱模型微调（如生成好坏的评价），让强模型完成当前类似SFT和RLHF阶段，达到自己的上限。显然，实际上，由弱模型微调的强模型的性能其实可能并没有达到它上限水平，因此它与强模型上限的差距就是未来我们要缩小的目标。

这里面可能有些人会困惑为什么弱模型可以微调强模型。其实这里的微调主要是指当前大模型训练过程中的对齐阶段。即我们训练出来了一个超强的AI系统，没有对齐微调（RLHF）之前它可以生成任意不加限制和不顾好坏的结果。所以我们需要用一些好坏的示例来告诉它（微调）你应该如何判断好坏，进而完成引导和监督的目的。弱模型的微调是指弱模型可以在有限的范围内生成一些好坏评估结果（例如可以生成1000行代码的评估结果），较强的模型需要根据这个好坏结果微调来提升自己的水平，进而最终可以完成对自己生成的100万行代码的好坏进行评估的能力。这样就可以保证较强的AI系统可以在基座模型上提升水平。

如下图所示：

这里的PGR全称是performance gap recovered，就是说强模型的能力恢复（其实就是基座模型的能力通过微调可以发掘出来），它的值如果是1，说明我们完全可以做到由弱模型引导强模型的过程。也就意味着未来我们可以有效控制超人类AI系统。

超级对齐的实验总结

由于这个工作内容很长，我们这里篇幅原因不再细说，总结一下过程和结论。

首先，OpenAI使用的是用GPT-2当作弱模型，GPT-4当作强模型。GPT-2是完全训练好的能力上限的模型。GPT-4用的是基座模型（我们现在用的ChatGPT的GPT-4模型是做过RLHF之后的，所以感觉很强）。

然后，OpenAI选择了非常多的任务，用GPT-2去打标签，再用这个标注结果去微调对齐GPT-4的模型。由于OpenAI本身已经依靠RLHF做出了性能很强的当前已经在使用的GPT-4模型，所以可以对比GPT-2标注结果微调的GPT-4和当前做过RLHF的GPT-4的性能差距。这样测试由弱到强的监督可以恢复强模型的多少能力（这里可以看到，GPT-4比人类弱，所以我们RLHF可以完全激发GPT-4的性能。因此，这里的弱模型基准、GPT-4上限基准和由弱到强的微调基准我们都能算出来）。

最终，不同任务的测试结果如下：

这里的上面一行的数据展示的是真正的GPT-4成绩和由弱到强微调的结果对比。下图是PGR的分数。大致结论就是由弱到强的监督在部分任务上获得不错的结果，比如NLP任务上，可以恢复到最强性能上限的70%还多，最少也有20%的提升（相比较强模型的基座）。但是，在奖励模型的任务上表现很差，不管在什么的测试环境，都无法获得强模型的有效提升。奖励模型是指模型可以识别出人类偏好什么样的回复。

下图是总结：

总体的实验结论如下：

强大的预训练模型天然能够超越它们的弱监督者。如果我们使用弱模型生成的标签对强模型进行微调，强模型的表现会超出弱监督者。例如，在自然语言处理（NLP）任务上，如果我们用GPT-2级别模型的标签对GPT-4进行微调，可以让强模型恢复一半的性能水平。
仅依靠弱监督模型数据的微调是不够的。尽管有积极实验结果，但使用弱监督微调的强模型与使用真实监督微调的强模型之间仍然存在显著差距。弱到强泛化在ChatGPT奖励建模方面尤其不佳。综合来看，这个实验结果提供了实证证据，表明当前的RLHF可能无法很好地扩展到超人类模型，除非进行额外的工作。
改进弱到强的泛化是可行的。OpenAI发现，通过鼓励强模型使用辅助损失函数来进行自信预测、使用中间模型进行监督引导和通过无监督微调改进模型表示，可以提高性能。例如，当使用辅助信心损失函数对NLP任务中的GPT-4进行GPT-2级别模型的监督时，我们通常能够恢复弱模型和强模型之间近80%的性能差距。也就是说，至少看到有方法可以实现这种泛化。

总结

这个论文最重要的不是OpenAI提出的方法和结论，而是2个信息：一个是OpenAI真的相信未来10年会出现超过人类的AI系统；另一个是OpenAI正在积极准备应对这种情况。而由弱到强只是这方面的一个探索。同时，OpenAI也宣布投资1000万美元，在全球招募团队做这方面的研究，合格的团队可以获得10万-200万美元的资助，进行超级对齐的研究。

由弱到强的超级对齐论文：https://cdn.openai.com/papers/weak-to-strong-generalization.pdfOpenAI官方的介绍：https://openai.com/research/weak-to-strong-generalization

本文原文来自DataLearnerAI：https://www.datalearner.com/blog/1051702655263827

本文来自微信公众号：DataLearner（ID：data_learner），作者：DataLearner

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

从双12到“好价节”，好价逻辑如何兑现电商增长？

Previous 2023年12月19日 11:22

王自如，格力把命给了你！

Next 2023年12月19日 11:32

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

OpenAI宣布RLHF即将终结，超级AI真的要来了？

相关推荐

Share To :