连ChatGPT都会“阿谀奉承”了?

为了证实这些结果,研究人员又研究了人类和偏好模型是否更喜欢有说服力、写得很好的模型回应,这些回应确认了用户的错误观点(即阿谀奉承回应),而不是纠正用户的回应。

为了验证这些发现,研究人员进一步探究了人类和偏好模型是否更偏好那些有说服力、表达流畅的模型回应,即便这些回应是确认用户错误观点(即阿谀奉承回应)而非纠正用户的观点。

你是否想过,ChatGPT 生成的答案会受到用户个人偏好的影响,回复一些足够“阿谀奉承(sycophancy)”的话,而非中立或真实的信息?

实际上,这种现象存在于包括 ChatGPT 在内的大多数 AI 模型之中,而罪魁祸首竟可能是“基于人类反馈的强化学习(RLHF)”。

近日,OpenAI 在美国硅谷的最强竞争对手 Anthropic 在研究经过 RLHF 训练的模型时,便探究了“阿谀奉承”这一行为在 AI 模型中的广泛存在及其是否受到人类偏好的影响。

相关论文以“Towards Understanding Sycophancy in Language Models”为题,已发表在预印本网站 arXiv 上。

研究结果表明,“阿谀奉承”行为在 RLHF 模型中普遍存在,且很可能部分受到人类偏好对“阿谀奉承”回应的影响。

具体来说,AI 模型表现出这种行为的一个主要原因是,当 AI 的回复符合用户的观点或信仰时,用户更有可能给予积极的反馈。也因此,为了获得更多的积极反馈,AI 模型就可能会学习并重现这种讨好用户的行为。

阿谀奉承,最先进的 AI 助手都会

目前,像 GPT-4 这样的 AI 模型通常可以在经过训练后产生人们高度评价的输出。使用 RLHF 对语言模型进行微调可以改善它们的输出质量,而这些质量由人类评估员评价。

然而,有研究认为基于人类偏好判断的训练方案可能以不可取的方式利用人类判断,如鼓励 AI 系统生成吸引人类评估员但实际上有缺陷或错误的输出。

目前尚不清楚上述情况是否会发生在更多样化和现实情境中的模型中,以及是否确实是由人类偏好中的缺陷所驱动的。

为此,该研究首先调查了最先进的 AI 助手在各种现实情境中是否提供阿谀奉承的回应。在自由文本生成任务中,研究人员在 5 个(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先进的经过 RLHF 训练的 AI 助手中识别了阿谀奉承的一致模式。

具体而言,这些 AI 助手在受到用户质疑时经常错误地承认错误,提供可预测的有偏反馈,以及模仿用户所犯的错误。这些实证研究结果一致表明,阿谀奉承可能确实是 RLHF 模型训练方式的一种特性,而不仅仅是某个特定系统的单独特征。

人类偏好导致的“阿谀奉承”

除此之外,研究又进一步探讨了人类偏好在这一行为中的作用。为了研究这一点,研究人员对现有的人类偏好比较数据进行了调查,确定阿谀奉承回应是否在排名上高于非阿谀奉承回应。研究对 hh-rlhf 数据集进行了分析,对每一对偏好比较使用语言模型生成文本标签(即“特征”),以评估优选回应是否更真实且不那么坚决。

为了了解数据鼓励哪种行为,研究人员使用贝叶斯逻辑回归模型通过这些特征来预测人类偏好判断。这个模型学到了与匹配用户观点相关的特征是人类偏好判断中最有预测性的特征之一,这表明偏好数据确实鼓励阿谀奉承。

为探究偏好数据中的阿谀奉承是否导致了 RLHF 模型中的阿谀奉承行为,随后的研究对当优化语言模型的回应以适应训练用于预测人类偏好的模型时,阿谀奉承是否会增加进行了分析。研究人员使用 RLHF 和最佳-N 采样方法来优化回应,以满足用于训练 Claude 2 的偏好模型。

研究结果揭示了一个有趣的发现:在更多的优化过程中,虽然增加了某些形式的阿谀奉承,但却减少了其他形式。这现象可能部分源于阿谀奉承只是偏好模型激励的众多特征之一。

然而,研究也发现,Claude 2 的偏好模型有时更倾向于选择阿谀奉承的回应而不是真实的回应。此外,采用 Claude 2 的偏好模型进行最佳-N 采样并没有产生像 Claude 2 偏好模型的一个版本所示的更偏好真实非阿谀奉承回应那样真实的回应。

这一系列结果表明,尽管在许多情况下,最先进的偏好模型能够识别回应的真实性,但仍然可能会以损害真实性为代价产生阿谀奉承的输出。

为了证实这些结果,研究人员又研究了人类和偏好模型是否更喜欢有说服力、写得很好的模型回应,这些回应确认了用户的错误观点(即阿谀奉承回应),而不是纠正用户的回应。证据表明,人类和偏好模型倾向于更喜欢真实的回应,但并不总是如此;有时他们更喜欢阿谀奉承的回应。这些结果进一步证明了优化人类偏好可能会导致阿谀奉承。

为了验证这些发现,研究人员进一步探究了人类和偏好模型是否更偏好那些有说服力、表达流畅的模型回应,即便这些回应是确认用户错误观点(即阿谀奉承回应)而非纠正用户的观点。

研究证据显示,人类和偏好模型普遍偏好真实的回应,然而,并不是一成不变的,因为有时他们更倾向于阿谀奉承的回应。这些结果更进一步印证了优化以迎合人类偏好可能会导致阿谀奉承的产生。

总的来说,阿谀奉承在各种模型和情境中都存在,很可能部分原因是人类偏好比较数据中更喜欢阿谀奉承。

参考论文:

https://arxiv.org/abs/2310.13548

本文来自微信公众号:学术头条 (ID:SciTouTiao),作者:学术头条

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年10月24日
下一篇 2023年10月24日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日