博弈论如何让大语言模型更聪明？

2024年5月15日 22:44 • 未来科技

[1]

为了让语言模型给出更加一致的答案，从而提高模型的整体可靠性，Jacob和他的同事设计了一个游戏，模型的两种模式被驱动寻找共同的答案。

研究人员观察到的总体效果是，参与这种游戏的语言模型变得更加准确，无论问题如何提出，都更可能给出一致的答案。”

三、用语言玩游戏

获得初步的成功之后，Jacob现在正探索其他将博弈论融入LLM研究的方式。

试想你有一个朋友，他对同一问题的回答会因你的提问方式不同而不同。

你问“秘鲁的首都是哪里？”他会给出一个答案；而问“利马是秘鲁的首都吗？”时，他却给出另一个答案。如此，你可能会有点担心你朋友的智力，不再轻易相信他给出的任何答案。

这种情况正发生在许多大语言模型（LLMs）上，这些强大的机器学习工具支撑着 ChatGPT及其它人工智能的运行。一个开放式的生成问题会得到一个答案，而涉及必须在选项之间进行选择的判别性问题，往往会得到另一个不同的答案。“同一个问题以不同的方式表达时，就会出现不一致。”麻省理工学院的博士生Athul Paul Jacob表示。^[1]

为了让语言模型给出更加一致的答案，从而提高模型的整体可靠性，Jacob和他的同事设计了一个游戏，模型的两种模式被驱动寻找共同的答案。这个名为共识游戏的简单程序通过博弈论工具，提升了LLM的准确性和内部一致性。^[2]

▷Jacob， Athul Paul， et al. “The consensus game: Language model generation via equilibrium search.” arXiv preprint arXiv:2310.09139 (2023).

“针对这些模型内部一致性的研究非常有限，”机器人公司Field AI的首席科学官Shayegan Omidshafiei说。“这篇论文是第一批巧妙而系统地解决这个问题的论文之一，它为语言模型创建了一个可以自我博弈的游戏。”^[3]

“这确实是一项非常激动人心的研究，”Google Research的研究科学家Ahmad Beirami说。他指出，多年来，语言模型对提示的响应方式一直没有变化。“麻省理工学院的研究团队通过引入游戏机制，为这一流程带来了全新的范式，可能会催生许多新的应用场景。”

一、将游戏融入研究

这项新的研究利用游戏来提升人工智能，与过去通过游戏来衡量人工智能成功与否的方式形成对比。

例如1997年，IBM的“深蓝”计算机击败了国际象棋大师Garry Kasparov，这标志着思维机器的一个里程碑。19年后，Google DeepMind的AlphaGo在对战前围棋冠军李世石的五局比赛中赢得四局，揭示了另一个人类不再称霸的竞技场。^[4]此外，机器还在跳棋、双人扑克及其他零和游戏中超越了人类，这些游戏中一方的胜利必然意味着另一方的失败。

而对AI研究者来说，更大的挑战来自于“外交”游戏——这是像约翰·肯尼迪和亨利·基辛格这样的政治家所喜爱的。这款游戏不仅仅是两个对手，而是涉及七名玩家，他们的动机难以捉摸。为了获胜，玩家必须进行谈判，建立可以随时被违背的合作关系。外交游戏的复杂性极高，以至于当Meta一个团队编写的AI程序Cicero2022年在40场比赛中达到“人类水平”时也表示满意。虽未击败世界冠军，但该程序在对抗人类参与者中的表现足以排在前10%。

在该项目中，Meta团队的成员Jacob注意到Cicero依赖语言模型来与其他玩家进行对话。他意识到了尚未开发的潜能。他表示，团队的目标是“为这个游戏而构建的他们所能做到的最佳语言模型。”如果转而专注于创建能够最大化提升大型语言模型性能的游戏会怎样呢？

二、两厢情愿的互动

在2023年，Jacob在麻省理工学院继续探索他的研究课题，与Yikang Shen、Gabriele Farina和指导教授Jacob Andreas合作，开发了一种名为共识博弈的新模式。^[5-7]这个游戏的核心概念是将两人之间的对话视作一种合作性游戏，其中成功的关键在于听者是否能理解说话者想要表达的内容。具体来说，共识博弈旨在调和语言模型中负责生成问题的生成器和处理判别问题的鉴别器两大系统。

经过数月的起起落落，团队最终将这一理念发展成完整的游戏。游戏开始时，生成器首先接收一个问题，这个问题可能来自人类或是预设的问题列表。例如：“巴拉克·奥巴马出生在哪里？”随后，生成器会收到几个可能的回答，如檀香山、芝加哥和内罗毕，这些答案可能来自人类、列表或是模型自身的搜索。

在给出回答前，生成器还需要根据一次公平的硬币抛掷，来决定其回答应正确还是错误。

如果硬币正面朝上，生成器则尝试给出正确答案，并将问题及其选定的答案发送给鉴别器。如果鉴别器认为生成器有意提供了正确答案，则双方各获得一分作为奖励。

如果硬币反面朝上，生成器则提供一个错误答案。若鉴别器判断该答案是有意提供的错误答案，他们再次各得一分。这样做的目的是为了鼓励双方达成一致。Jacob解释说：“这就像训练狗狗做动作，做对了就给予奖励。”

生成器和鉴别器在游戏开始时各自设定了一些“初始信念”，这些信念以概率分布的形式存在，关联到不同的选择。例如，基于从互联网上获取的信息，生成器可能认为奥巴马在檀香山出生的可能性为80%，在芝加哥的可能性为 10%，在内罗毕的可能性为5%，其他地方为 5%。

鉴别器可能会有不同的初始概率分布。尽管两名“玩家”通过达成一致来获得奖励，他们如果偏离最初的信念过远，也会受到惩罚。这种设置鼓励他们将对世界的认知——再次通过互联网获得——融入到他们的回答中，这能够提升模型的准确性。如果没有这种机制，他们可能会在一个完全错误的答案上达成一致，如德里，但仍然能够得分。

▷图源：Matt Chinworth

在每个问题上，这两个系统将进行大约1000轮的对决。通过这些重复的游戏，双方逐步了解对方的信念并调整自己的策略。

最终，生成器和鉴别器通过逐渐适应达到了所谓的纳什均衡。这是博弈论中的核心概念，它代表了游戏中的一种平衡状态，即任何玩家通过改变策略都无法改善自己的个人结果。例如，在石头、剪刀、布游戏中，当玩家均衡地选择每个选项时表现最佳，而任何其他策略都会导致更差的结果。

在共识博弈中，这种平衡可以通过多种方式体现。例如，鉴别器可能发现每次生成器发送“檀香山”作为奥巴马出生地时，它都能得分。经过反复的游戏，生成器和鉴别器将学会通过继续这样做来获取奖励，他们也没有动机去尝试其他任何事情。这种共识是针对这个问题可能的纳什均衡的众多示例之一。MIT团队还利用了一种修改版的纳什均衡，这种均衡考虑了玩家的先验信念，有助于确保他们的回答更加贴近现实。

研究人员观察到的总体效果是，参与这种游戏的语言模型变得更加准确，无论问题如何提出，都更可能给出一致的答案。为了测试共识游戏的效果，团队对几个参数在7亿到13亿之间的中等规模语言模型进行了一系列标准问题的测试。这些模型在正确回答的比例上常常超过了未参与游戏的模型，即使是那些参数高达 540亿的大型模型也是如此。参与游戏还提升了模型的内部一致性。

原则上，任何LLM都能从与自身进行游戏的过程中获益，而在标准笔记本电脑上进行的 1，000轮游戏仅需几毫秒。Omidshafiei指出：“这种方法的一个显著优点是它的计算需求非常低，不需要对基础语言模型进行训练或修改。”

三、用语言玩游戏

获得初步的成功之后，Jacob现在正探索其他将博弈论融入LLM研究的方式。初步的结果显示，通过与多个小型模型一同参与一个名为集成游戏的游戏，已经表现强大的LLM能够进一步提升性能。在这个游戏中，主要的LLM至少有一个小模型作为盟友，至少有一个扮演敌对角色。例如，当主要LLM被问及美国总统是谁时，如果其答案与盟友一致，则获得一分；如果答案与对手不同，也同样获得一分。这种与小型模型的互动不仅能提升LLM的性能，而且无需额外训练或更改参数即可实现。

这只是一个开始。Google DeepMind的研究科学家 Ian Gemp表示，由于许多情境都可以视为游戏，博弈论的工具可以在多种现实世界的情境中得到应用。在他与同事们于2024年2月发表的一篇论文中，他们研究了需要比简单问答更复杂交流的谈判场景。“这个项目的主要目标是让语言模型具备更多的策略性。”

▷Gemp， Ian， et al. “States as Strings as Strategies: Steering Language Models with Game-Theoretic Solvers.” arXiv preprint arXiv:2402.01704 (2024).

他在一个学术会议上讨论的一个例子是期刊或会议的论文审查过程，尤其在最初提交被严厉批评后。鉴于语言模型能够为不同的回应分配概率，研究者可以构建类似于扑克游戏的游戏树，图示出可选的策略及其可能的结果。”做到这一点后，你就可以开始计算纳什均衡，并对各种反驳进行排序，”Gemp说。模型本质上是在指导你应该怎样回应。

得益于博弈论的洞察，语言模型未来能够处理更加复杂的互动，而不再仅限于问答问题。“未来的重大进展将关注更长的对话。”Andreas 说。“下一步是让人工智能与人而非仅与另一个语言模型进行交互。”

Jacob将DeepMind的工作视为共识博弈及集成游戏的补充。“从更高层次看，这两种方法都是在结合语言模型与博弈论。”他说，尽管各自的目标略有不同。虽然Gemp小组正通过游戏化常见场景来协助战略决策，Jacob表示，“我们正在利用我们对博弈论的了解来改进一般任务中的语言模型。”

Jacob表示，这些努力目前呈现为“同一棵树上的两个分支”——利用两种不同的方法来增强语言模型的功能。“我们希望在未来一到两年内，这两个分支能够得到融合。”

参考文献

[1]: https://apjacob.me/

[2]: https://openreview.net/forum?id=n9xeGcI4Yg

[3]: https://scholar.google.com/citations?user=nm5wMNUAAAAJ&hl=en

[4]: https://www.quantamagazine.org/tag/alphago/

[5]: https://mitibmwatsonailab.mit.edu/people/yikang-shen/

[6]: https://www.mit.edu/~gfarina/about/

[7]: https://www.mit.edu/~jda/

本文来自微信公众号：追问nextquestion （ID：gh_2414d982daee），作者：Steve Nadis，编译：丹雀，审校&编辑：张心雨桐

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

北京高达基地旗舰店将于5月17日正式开业

Previous 2024年5月15日

Google教科书般的AI反击战

Next 2024年5月16日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

博弈论如何让大语言模型更聪明？

相关推荐