AI对齐AI，OpenAI让GPT-2监督GPT-4

2023年12月15日 14:30 • 未来科技

//cdn.openai.com/papers/weak-to-strong-generalization.pdf

OpenAI“超级对齐”团队成立于今年。

但研究同时指出，用弱监督训练的强模型和用真实标签训练的强模型之间仍然存在很大的差距。

因此，如果我们在人类的监督下微调超级模型，我们无法确定这个模型将如何泛化到那些人类自己也难以可靠监督的复杂行为。

过去一年，以“预测下一个 Token”为本质的大模型已经横扫人类世界的多项任务，展现了人工智能的巨大潜力。

在近日的一次访谈中，OpenAI 首席科学家 Ilya Sutskever 大胆预言，如果模型能够很好地预测下一个词，那么意味着它能够理解导致这个词产生的深刻现实。这意味着，如果 AI 按照现有路径发展下去，也许在不久的将来，一个超越人类的人工智能系统就会诞生。

但更加令人担心的是，“超级人工智能”可能会带来一些意想不到的负面后果。这也是“对齐”的意义。

此前的对齐方法依赖于人类的监督，如在 ChatGPT 训练中起到关键作用的人类反馈的强化学习（RLHF）。但未来的人工智能系统或许能够做出极其复杂和富有创造性的行为，使人类难以对其进行可靠的监督。例如，超人类模型可能会编写出数百万行新奇的、具有潜在危险的计算机代码，即使是人类专家也很难理解这些代码。

一旦人工智能的水平超过人类，我们又该如何监督比自己聪明得多的人工智能系统？人类文明最终会被颠覆甚至摧毁吗？

即使是 Hinton 这样的学界巨佬，对这个问题同样持悲观态度 —— 他表示自己“从没见过更高智能水平的东西被远远更低智能水平的东西控制的案例”。

刚刚，OpenAI“超级对齐”团队发布了成立以来的首篇论文，声称开辟了对超人类模型进行实证对齐的新研究方向。

论文链接：https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

OpenAI“超级对齐”团队成立于今年 7 月，目标是在四年内解决超智能 AI 的对齐问题，即搞清楚如何构建一种值得信任的人类水平的研究器，然后将其用于解决对齐问题。据说这个团队投入了公司 20% 的算力。

在这篇论文中，OpenAI 对“人类监督超级人工智能”这个问题做了一个简单的类比：让小模型监督大模型。

研究表明，15 亿参数的 GPT-2 模型可以被用来激发 GPT-4 的大部分能力，使其达到接近 GPT-3.5 级别的性能，甚至可以正确地泛化到小模型失败的难题上。

OpenAI 将这种现象称为“弱到强泛化”（Weak-to-strong generalization），这表明强大的模型具备如何执行任务的隐含知识，并且即使在给出粗制滥造的指令时也可以在其自身中找到这些知识。

但研究同时指出，用弱监督训练的强模型和用真实标签训练的强模型之间仍然存在很大的差距。这表明在没有额外工作的情况下，诸如基于人类反馈的强化学习（RLHF）之类的技术可能无法很好地扩展到超人类模型。对于 ChatGPT 奖励建模任务来说，性能差距尤其大。

几种简单的方法可以显著提高弱到强的泛化能力，比如使用中间模型大小进行引导监督，在微调时添加辅助置信度损失以鼓励模型即使在与弱标签相矛盾时也能保持自信，或者通过额外的无监督预训练改进表征学习。

为了鼓励其他研究人员解决此类问题，OpenAI 今天还宣布将提供 1000 万美元的资助，用于各种比对方法的研究。

以下是论文细节：

研究方法

本文主要通过人类反馈（RLHF）的强化学习来指导或对齐模型，他们是这样做的：强化评估人员评价高的行为，惩罚评估人员评价低的行为。假如说人类评估者能够准确判断模型行为是好是坏，这种做法非常有效，并且这种方式还是训练如 ChatGPT 等大语言模型的核心部分。

然而问题来了，超级模型可能做出人类无法完全理解的复杂行为和创造性行为。例如，一个超级助手模型生成的代码达到一百万行，那么人类将无法为关键对齐相关任务提供可靠的监督，包括代码是否遵循用户的意图，助手模型是否如实地回答有关代码的问题，代码执行是否安全或危险等等。

因此，如果我们在人类的监督下微调超级模型，我们无法确定这个模型将如何泛化到那些人类自己也难以可靠监督的复杂行为。换句话说，这意味着即使在人类的指导下，这些超级模型在处理一些复杂或未知情况时的表现仍然是不确定的。

这就为对齐超级模型带来了挑战：不那么聪明的监督者怎么能控制比他们聪明得多的模型呢？尽管这个问题很重要，但目前很难进行实证研究。

一般来讲，超级对齐的一个核心挑战是人类需要监督比自己更聪明的模型。这是一个弱 – 强（weak-to-strong）的学习问题：一个弱监督者如何监督一个比它聪明得多的模型？为了解决这个问题，本文提出了一个简单的类比，用弱模型作为监督者来代替较弱的人类监督者。

一般来讲，传统的机器学习侧重于这种设置，即人类监督的模型比人类弱。但对于最终的超级对齐问题，人类监督的模型比他们聪明。因而本文研究了一个类似的问题：使用弱模型来监督强模型。

他们是这样实现的，对于一个给定的任务：

构建弱监督者。本文通过在真值标签上微调较小的预训练模型来构造弱监督者，他们把弱监督者的表现称为弱表现，并通过弱模型的预测来生成弱标签。
通过弱监督训练强学生模型。本文使用生成的弱标签微调强模型，并将该模型称为强学生模型，将其产生的性能称为从弱到强的性能。
训练一个以真值标签为上限的强模型。为了比较，本文使用真值标签对强模型进行了微调。将此模型的最终性能称为强大的上限性能。

通常，弱到强的表现将介于弱表现和强上限表现（strong ceiling）之间。本文将 PGR（performance gap recovered）定义为上述三种性能（弱、弱到强和强上限）的函数，如下图所示。

如果实现完美的弱到强泛化，则 PGR 为 1。如果弱到强模型的表现并不比弱监督者更好，则 PGR 为 0。

实验结果

在 NLP 任务、国际象棋和奖励建模任务中，本文评估了强学生模型的表现，结果如下图。总的来说，在所有的设置中，本文观察到从弱到强的泛化：强学生模型始终胜过他们的弱监督者。

本文发现可以使用简单的方法来大大提高弱到强的泛化，如图 4 所示。

图 5 表明，对于较小的强学生来说，虽然它的表现比 naive 基线稍差，但提高泛化能力还是很明显的。

图 7 (a) 显示了 ChatGPT RM 任务训练过程中的真值测试准确度曲线，图 7 (b) 和 (c) 比较了最佳和最终真值测试的准确度。

图 9a 考虑了 7 个有代表性的 NLP 任务，并比较了微调、零样本提示和 5-shot 提示；对于零样本和 5-shot 基线，本文使用表 2 中总结的特定任务的提示。

本文来自微信公众号：机器之心（ID：almosthuman2014），编辑：陈萍、蛋酱

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

董宇辉，有四条路可以选择。

Previous 2023年12月15日 14:12

从中央经济会议看2024如何部署？哪些行业更吃香？

Next 2023年12月15日 14:35

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

AI对齐AI，OpenAI让GPT-2监督GPT-4

相关推荐