GPT-4的“自我纠正”，反而越改越错？

2023年10月22日 15:07 • 未来科技

一、GPT-4“自我纠正”，输出结果反而更差

第一篇论文针对GPT-4进行研究，让GPT-4对图形着色问题提供解决方案，然后让GPT-4对于自己提出的方案进行“自我纠正”。

研究人员使用之前相同的图实例，但生成了四种用于测试模型的着色方案：

正确（Correct）：通过迭代的、随机的贪婪算法生成的没有错误的最优着色方案（使用预先计算的色数以确保最优性）。

大模型又被爆出重大缺陷，引得LeCun和马库斯两位大佬同时转发关注！

在推理实验中，声称可以提高准确性的模型自我纠正，把正确率从16%“提高”到了1%！

简单来说，就是LLM在推理任务中，无法通过自我纠正的形式来改进输出，除非LLM在自我纠正的过程中已经知道了正确答案。

由ASU研究人员发表的两篇论文，驳斥了之前很多研究提出的方法“自我纠正”——让大模型对自己的输出的结果进行自我纠正，就能提高模型的输出质量。

论文地址：https://arxiv.org/abs/2310.12397

论文地址：https://arxiv.org/abs/2310.08118

论文的共同作者Subbarao Kambhampati教授，一直致力于AI推理能力的相关研究，9月份就发表过一篇论文，甚至全盘否定了GPT-4的推理和规划能力。

论文地址：https://arxiv.org/pdf/2206.10498.pdf

而除了这位教授之外，最近DeepMind和UIUC大学的研究者，也针对LLM在推理任务中的“自我纠正”的能力提出了质疑。

这篇论文甚至呼吁，所有做相关研究的学者，请严肃对待你们的研究，不要把正确答案告诉大模型之后再让它进行所谓的“自我纠正”。

因为如果模型不知道正确答案的话，模型“自我纠正”之后输出质量反而会下降。

https://arxiv.org/abs/2310.01798

接下来，就具体来看看这两篇最新论文。

一、GPT-4“自我纠正”，输出结果反而更差

第一篇论文针对GPT-4进行研究，让GPT-4对图形着色问题提供解决方案，然后让GPT-4对于自己提出的方案进行“自我纠正”。

同时，作者再引入一个外部的评估系统对GPT-4的直接输出，和经过了“自我纠正”循环之后的输出进行评价。

实验结果显示，GPT-4在猜测颜色方面的准确率还不到20%，这个数值似乎并不让人意外。

但令人惊讶的是，“自我纠正”模式下的准确性却大幅下降（下图第二根柱状条）——与所有自我纠正本意完全背道而驰！

作者认为，这种看似反直觉的情况可以这么解释：GPT-4在验证正确答案的表现也很糟糕！

因为即使当GPT-4偶然猜到正确颜色时，它的“自我纠正”会使它觉得正确答案是有问题的，然后就把正确答案给替换掉了。

通过进一步研究后还发现：如果外部验证器给GPT-4猜测出的颜色提供了可以被证实的正确答案，GPT-4确实会改进它的解决方案。

在这种情况下，经过“自我纠正”产生的提示词，确实可以提高输出结果的质量（上图的第3~5根柱状图）

总结来看，就是对于“着色问题”任务，GPT-4独立的“自我纠正”反而会损害输出的性能，因为GPT-4没法验证答案是否正确。

但是如果能提供外部的正确验证过程，GPT-4生成的“自我纠正”确实能提升性能。

而另一篇论文，从规划任务的角度来研究了大语言模型“自我纠正”的能力，研究结果也和上一篇论文类似。

而且，研究人员发现，真正能提高输出准确性的不是LLM的“自我纠正”，而是外部独立验证器的反馈。

归根结底，还是在于LLM没有办法进行独立的验证，必须依赖外部的验证器给出的“正确答案”，才能有效地进行“自我纠正”。

二、“着色问题”表现不佳，LLM无法独立验证正确答案

研究设计框架

“着色问题”是非常经典的推理问题，即使难度不大，答案也足够多样性，而且答案的正确性很容易进行验证。

多样性的结果使得LLM的训练数据很难覆盖全，尽量避免了LLM的训练数据被污染的可能。

这些原因使得“着色问题”很适合用来研究LLM的推理能力，也很方便用来研究LLM在推理中“自我纠正”的能力。

研究人员构建了自己的数据集，使用GrinPy2来处理常见的图操作。每个图都是使用Erdos-Rényi方法（˝p = 0.4）构造的。

一旦找到正确的答案，它就会被编译成标准的DIMACS格式，并附加上一个包含其预计算的色数（chromatic number）的注释。

对于接下来的实验，研究人员生成了100个实例，每个实例平均有24条边，分布在从10到17的节点数范围内——这一分布是因为经验显示，它是一个表现足够多变的范围。

研究人员使用的图例如下图1所示，这个流程包括LLM的第一次回复、该回复的返回提示（backprompt）以及最终正确的图色方案。

迭代返回提示（Iterative Backprompting）的架构

提示生成器（Prompt Generator）：

这个提示词生成器会选取一个DIMACS实例，并将每条边翻译成一个句子，然后将整体包裹在一组通用指令中，从而构造出一个自然语言提示词。

研究人员有意缩小不同实例提示之间的差异，以减少研究人员向LLM泄露的问题特定信息。各种类型提示的示例可以在附录中找到。

大型语言模型：

通过OpenAI API来调用GPT-4，这是当前最先进的模型。

研究人员提供一个系统角色：“你是一个解决各种CSP（约束满足问题）的约束满足求解器”。

返回提示词生成（Backprompt Generation）

在验证模式下，LLM收到一种不同类型的提示。

除了标准指令外，它只包含图的描述和建议的着色方案。它的任务是验证正确性、最优性以及每个顶点是否都已经被涂上了一个颜色。如果生成的回复中有一组边是矛盾的，那着色方案就是错误的。

为了比较每个点，研究人员还构建了一个能够列出每一条矛盾边的验证器。

由于LLM的响应也是自然语言形式的，研究人员首先将它们翻译成便于分析的格式。为了使这个过程更加一致，研究人员设计了最初的提示，以描述一个模型需要遵循的精确输出格式。然后，该响应会被评估其正确性。

验证

为了更深入了解LLM的验证能力，研究人员研究了它们在找出提出的着色方案中的错误方面的表现。

直观来说，这些错误应该很容易识别：如果组成一个边的两个顶点共享一个颜色，则立即返回该边。从算法角度来看，所有需要做的就是遍历所有边，并将每个顶点的颜色与其对应顶点的颜色进行比较。

研究人员使用相同的分析流程，但构建了一个研究人员称为color_verification的新域。LLM被引导去检查着色的正确性、最优性以及是否每个顶点都已经被赋予了一个颜色。

如果着色是不正确的，它被指示列出着色中的错误，即如果两个连接的节点共享一种颜色，就返回该边以表示该错误。没有则给出返回提示（backprompts）。

研究人员使用之前相同的图实例，但生成了四种用于测试模型的着色方案：

正确（Correct）：通过迭代的、随机的贪婪算法生成的没有错误的最优着色方案（使用预先计算的色数以确保最优性）。

缺失（Ablated）：将先前一组着色方案中的一个随机节点改变为其邻居的颜色。

非最优（Non-optimal）：在正确的集合中，随机选择一个颜色部分重新着色为一个新的色调。

随机（Random）：完全随机分配的颜色，不同颜色的数量等于图的色数。

LLM从先前实验中LLM生成的输出中随机选取着色方案。

结论

对LLM进行提示、评估答案，并在没有任何返回提示（backprompts）的情况下就会进入下一个实例，得到的基线分数为16%。

当研究人员运行相同的实例，但这次使用由相同的语言模型充当验证者生成的反馈进行返回提示时，性能急剧下降——100个实例中只有一个得到了正确的回答。

与外部合格的验证器进行返回提示的结果起初看似更有效果。

正确回答的实例数量接近40%，但如果这意味着GPT-4在听取、改进，并根据反馈进行推理，那么研究人员期望更准确的返回提示会带来更好的结果。

然而，在这个域中，原始分数（见上图2）并没有证明这一点。

LLM的验证能力

研究人员测试了GPT-4在相同实例上验证图着色方案的能力，为每种实例生成了五种不同类型的着色方案。

明显的结果是，与上面的LLM自我纠正结果完全一致：模型几乎不愿将任何答案标记为正确。在100个最优着色方案中，它只同意其中2个是正确的。

整个500个着色方案的集合，其中118个是正确的，它只声称其中30个是正确的。在这30个中，其实只有5次是正确的。

总体而言，这一模式保持不变。在不到10%的案例中，LLM给出了“正确”、“非最优”或“缺少赋值”的反应。在这些情况中，行为看似有些随机。

在大约四分之一的实例中，它用“这是不正确的”验证作出回应，而解释与现实相符，而且它只通过指明不超过一个边来实现这一点，从而最小化了错误陈述某事的机会。

结果如上表2所示。请注意，当域的错误率增加时，幻觉比例下降。也就是说，当有更多的不正确的边时，模型更有可能指出其中出错的情况。

三、LLM自我批评，性能不增反减

在12日提交的论文中，作者同样得出了与上面一致的结论。

无论是规划，还是简单的算术或逻辑，当前最先进的大模型GPT-4也无法完全胜任。

许多研究人员对其进行了许多的探索和改进，其中就包括让LLM学会自我迭代、自我验证等策略来提升性能。由此，业界人们乐观地认为，大模型还有救！

然而，经典意义上的推理任务复杂性与大模型无关，因为LLM是采用近似检索而非精确推理的模型。

在12日提交arXiv的论文中，ASU研者系统地评估和分析LLM在规划任务中的自我批评，以及迭代优化的能力。

研究中，作者提出了一个包含生成器LLM和验证器LLM的规划系统。

其中，GPT-4生成器负责生成候选计划，GPT-4验证器负责验证计划的正确性并提供反馈。

然后，研究人员在Blocksworld规划领域上进行了实验，并对以下方面进行了实证评估：

自我批评对整个LLM+LLM系统的计划生成性能的影响；

验证器LLM相对于地面真值验证的性能；

在批评LLM生成时，同反馈级别对整体系统性能的影响。

结果表明，与使用外部可靠的验证器相比，自我批评会降低LLM规划生成性能。

性能下降可以直接归因于验证器LLM的糟糕结果，验证器LLM产生了大量的假阳性，这可能严重损害系统的可靠性。

验证器LLM的二元分类准确率仅为61%，存在大量的假阳性（将错误规划判断为正确）。

另外，根据反馈的详细程度对比，发现其对规划生成性能影响不大。

总的来说，这项研究的系统调查提供了初步证据，对于LLM作为迭代、自我批评框架内规划任务验证者的有效性提出质疑。

论文作者Subbarao Kambhampati是亚利桑那州立大学计算机科学教授。Kambhampati研究规划和决策中的基本问题，特别是受人类感知人工智能系统挑战的推动。

参考资料

https://twitter.com/rao2z/status/1715800819239678013

https://twitter.com/GaryMarcus/status/1715804178470387736

本文来自微信公众号：新智元（ID：AI_era），编辑：桃子、润

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

香港半导体，为何衰落

Previous 2023年10月22日

失独父亲的执念：用AI“复活”我的孩子

Next 2023年10月22日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

GPT-4的“自我纠正”，反而越改越错？

相关推荐