“万能的”大模型，没有带来“无限的”游戏

2023年10月8日 22:00 • 未来科技

另一方面在游戏设计中，“function”的概念其实随处可见，大多可以理解为这么一个作用方式：

大概就是“在。

这时候的愿景大概是这样（该图是后续讨论的核心结构）：

这个情况当需要推演的场景越接近常识场景时（比如各种模拟游戏），LLM（尤其是。

3. LLM正在努力变得万能，但游戏不一定需要万能

众所周知，LLM。

What LLMs Offer

众所周知，大语言模型（LLM）是一个神经网络模型（废话）；而神经网络模型在信息学本质上，就是一个函数，它接受一些输入，映射到了一些输出。

但神经网络模型有别于编程语言带来的原生函数（native function）概念——即过程透明、逻辑性的、确定的——它的映射从语义角度看是过程不可知的、直觉性的、模糊的；从认知心理学角度看，可以说神经网络是建模了人类的直觉系统的一种语义函数（semantic function）。

同理，LLM 就是一个更加强大的、有了基本世界常识的、能理解绝大部分非高度专业领域信息的 semantic function。

另一方面在游戏设计中，“function”的概念其实随处可见，大多可以理解为这么一个作用方式：

大概就是“在 XX 情况下玩家做了 YY 操作然后画面出现了 ZZ”的这么一个过程，游戏开发者们日常实现的就是各式各样的这些“function”，进而组成了各种 gameplay 体验——通过用各种代码和脚本堆叠出来。

所以当 LLM 出现在大家视野的时候，一些比较技术敏感的人（不管是不是游戏研发）意识到：wow，LLM 不就是一个不再需要我手编脚本的万能 function 生成器了吗！

这时候的愿景大概是这样（该图是后续讨论的核心结构）：

这个情况当需要推演的场景越接近常识场景时（比如各种模拟游戏），LLM（尤其是 GPT 这种泛域模型）越可能直接起到“万能function”的作用；然后同时因为LLM在某些文本处理任务上表现出的“创造力”，似乎这也给游戏设计中的“涌现”功能提供了新的实现路径——游戏的推进（evolve）不再只能遵循既定的脚本规则，而是可以在语义空间中被LLM赋予理论上无限的可能路径。

一时间，“无限创造内容的 AI 游戏”、“理解一切的 AI NPC”之类的思想浪潮甚嚣尘上（正如我们在这段时间经历的那样）。

但请先别急。

What LLMs Miss

1. LLM是万能的映射，而非万能的生成

虽然 LLM 是这次 AIGC 浪潮中最耀眼的崽，但它在游戏的语境下，其实并不具备真正意义上的“生成一切”能力。

在大部分游戏类型中，除了纯文本部分（对话、文案等），最终会被直接呈现给玩家、玩家体验的绝大部分组成，都是跟资产有关的部分：动画、特效、操作反馈、关卡设计、音画呈现、UI……而我们也知道资产类 AIGC 技术目前还是以 2D 绘画和语音合成为主，而 3D 建模、动画视频等高级模态的技术依旧还离落地有相当距离；至少在现在这个时刻，很难真的做到实时呈现给玩家作为体验功能。

所以回看下图 2 这个解构流程，可以看出不管 LLM 在语义空间如何挥斥方遒，始终需要有一个呈现出口，也就是回归游戏的资产层的表现（decode 过程），而这个在AIGC真的全方位完全成熟之前——这个话题不是本文讨论重点，先假设其短期内达不到——肯定还是要沿用既有游戏生产的方式，也就是说信息层面上始终是一个有限、离散的资产集合。

当然，如果资产空间完全等同于语义空间似乎就没这个问题了，而这种情况其实就对应着现在各类基于纯文本生成的泛娱乐产品（我姑且觉得它们中绝大部分还不能算是游戏），比如 Glow、character.ai。

总结：LLM 并不能带来无限的游戏表现力，除文本外它依旧几乎完全依赖于资产开发本身。

2. LLM尝试理解一切，但游戏无法包含一切

诚如开头所述，LLM 强大在其对几乎任意语义信息都可以一定程度合理地处理（姑且先不讨论幻觉问题），但这句 assertion 里其实有两个“坑”。

首先，如果我们考虑的游戏原型形如博德之门 3、矮人要塞、Rimworld 之类的经典模拟要素拉满的游戏作品时，似乎 LLM 的这种强大就很适配——但实际情况是，并不是所有游戏都会做这种程度的堆料；换一个说法，博德 3/矮人要塞/Rimworld 之流之所以成功，首先是因为它们设计出了足够多的内容，然后才是在这些料上面做的各种交互性系统带来的海量的、近涌现式的体验。

其次，并不是所有的物料在状态信息层面，都一定能很好地转换为语义表达；最典型的就是各种即时动作系统，比如 FPS 的各种地理位置关系、重力光照等物理系统，它们是极度数值化的信息，先姑且不论处理数值运算关系本身就会加剧哪怕强如 GPT-4 的 LLM 幻觉程度，光是将这些数值状态合理转换成的语义层 prompt 就够开发们喝一壶了——这还没考虑 prompt engineering 的迁移性很差这个落地层面的老大难问题。

总结：只有当游戏内状态的复杂度到一定规模，且能比较自然地转译（encode）成语义表达，LLM 的屠龙技才算是有用武之地。

3. LLM正在努力变得万能，但游戏不一定需要万能

众所周知，LLM 有弱点：数学能力还不够稳定，特定领域推理能力出现幻觉可能性大，总是有助理口吻（特指类 ChatGPT 这种对齐过的模型）等等。当然，它还在日益变好且越来越多领域特化模型正在被生产——但对于游戏生产来说，这种万能不一定是 buff，可能是累赘。

很多游戏系统里的演进功能并不一定需要 LLM 的强项：泛域推理和想象力，比如当这些演进过程需要被规则强约束的时候——如肉鸽系统等各种成长路径，或者是以某些可量化指标为演化目标的——比如即时动作/策略游戏中最优化个体得分收益。

退一万步来说，不是 LLM 不能做（或者至少说未来有希望能做得更好），而是这些场景不论是行为树或是强化学习等非 LLM 的 AI 技术其实都有更好的处理手段；最终就会变成一个技术选型层面的取舍问题。

总结：LLM 的映射能力也有侧重点，可量化的最优化问题也许其他AI技术会是更合理的选型。

LLM-as-a-Character （to Kickoff）

结合上面的各项推论，以及对 LLM 设计角度的利弊分析，我们可能可以暂时性地抛出这么些不一定对的临时性结论：

1. 并不是所有游戏都必然需要 LLM 成为其核心；

2. LLM native gameplay 必然需要一个合适的原型以及足够丰富的资产内容成为其核心；

3. LLM native gameplay 设计的难点在 encode/decode native 设计。

说白了，屠龙刀并不一定合适所有的舞台，但龙不一定不存在，只是需要把耐心回归到细节设计与雕琢产品本身。

基于此，我们下面来讨论下什么系统功能可能适合被 LLM 赋能——当设计路径与技术边界都不明晰的时候，总得先从一个点开始尝试走出第一步——即使它可能是错误的/不通用的/不全方位的。

说到 LLM native gameplay，基本上大家（包括我本人）第一反应都是先试试拿来做 NPC；但具体怎么做，塞在 NPC 系统的什么位置，截至此时大部分人还是比较模糊的。不如我们先就拿“角色”——不管是玩家角色还是 NPC 角色——为赋能场景，考虑下 LLM 在角色这件事上可能可以做什么。在此先给出一个总架构图：

其中：

1. Humanity

建模角色的人格、思维过程、情绪认知等脑内信息和过程。

之所以会有 external 这么一个模块，也是因为之前提到的 LLM 的推演结果必须要 decode 到游戏表现层。而对于 NPC 来说，这样的行为表现并不合适直接从 interal（性格/记忆/意图等）直接经由 LLM 推导，原因在于：

人类行为学角度来说，除了一些条件反射行为外，脑中的认知信息要反映在行为上中间也是要经历好几个阶段的心理活动、并被不止一种动机所驱使的，很难要求 LLM 直接建模；

行为表现往往是有限且离散的空间（严重受限于资产表现层），并不适合作为 LLM 的直接输出端；分离心理和行为的做法，也可以更自由地选择合适的行为生成方案而非一切 LLM 至上；

设计角度看，这些变量可以作为设计预期的锚点，确保一定会有一些心理属性能被反映到——而不是祈祷 prompt 能生效。

2. Speaker

建模角色的对话行为，也包括角色的心理活动、剧情旁白等文字表现。

这是一个 LLM 输出结果和最终游戏表现几乎重合的一个功能系统，所以在研发上有它独特的侧重点：

文字会对玩家产生直接的反馈，是游戏的体验载体之一；

而当我们把文字视为体验载体、且希望 LLM 去赋能这些系统时，我们对 LLM 这部分功能的要求就会细腻和精确得多——因为它带来的体验是直接和清晰的；

且会有类似多样性、目的性（对话意图）的表现需求。

3. Evolver

角色对外界的行为决策及其具体执行（action），和对应结果的结算（resolving）。

分开来说：

①决策与行动：如果是 NPC，则是基于角色的 Humanity 相关描述信息，结合设计目的去执行特定行为动作；这步是否用 LLM 赋能取决于：

行为的表现层在语义上是不是一个足够大的集合，比如类似荒野之息的带涌现式设计、含大量玩法要素的场景下，用行为树往往很难覆盖所有策略空间；
作为输入端的 humanity 信息是否含有纯语义信息（比如角色当前的一些内心小九九之类）。

如果是玩家，这部分就是玩家的UI输入（包含文字输入）的直接映射。

②行动的结果结算，类似博德 3 的沙盒型游戏玩家或角色的具体行为所带来的后果，都是由复杂的预设规则+物理模拟引擎+数值系统来做结算的；但如果此功能的输入端——即具体角色行为和参与行为的其他逻辑单元，物品、其他角色、场景等——含有语义型信息，例如可能是以下情况：

上一个模块用了 LLM 并输出了文本行动描述，或玩家直接输入了一段行动描述；

参与的逻辑单元由文本来描述，如角色使用的物品；

抑或者输入要素空间过大（博德 3 就是这种情况，只是拉瑞安用人力堆物料写脚本解决了），已经近似单词可以组成近无限句子的情况。

则结算模块也可以由带有常识推理能力的 LLM 来实现，获得更强的场景理解力和涌现感，或者至少实现研效提升。

LLM is not a Free Lunch

纵使 LLM 给角色设计和功能实现上提供了很大的遐想空间，很多落地层面需要考虑的问题还是无法忽视，且在一定时间内也许会持续制约着这些想法的实装落地。在此，我们尝试回答一下“为啥落地这些功能无法一蹴而就”这个问题。

还是按照惯例，先给出一个框架，“LLM for Gameplay 的经济性/原生性/鲁棒性不可能三角”：

我们可以发现：

想同时满足经济性+鲁棒性，可以通过约束 LLM 的作用范围来实现，这必然会损伤原生性（我为什么不用行为树）；

想同时满足经济性+原生性，可以降低对 LLM 输出内容的精细控制程度，这必然会损伤鲁棒性（随缘输出，赌玩家眼缘）；

想同时满足原生性+鲁棒性，可以通过精细的系统顶层设计和更多的细分场景支持来实现，这必然会损伤经济性（一局下来 token 爆炸）。

总的来说真要怨的话，可以说是 LLM 技术还不够强大和稳定，“又贵又菜”；而要在这几个维度之间做好包含项目预算、目标用户需求、产品战略在内的权衡时，整个事情就变成一个既要又要还要的跨设计+技术+项管的复杂问题。这种多因素权衡的境况，也导致为啥当前 LLM gameplay 一直处在一种好像可以又没人知道要怎么可以的观感阶段——试错空间大、路径多、成本高。

从技术实现角度，想要突破上述的不可能三角，有一个可能路径就是对 LLM 做强领域适配（不管是用 SFT、RLHF 还是 RAG，不过 RAG 的适配上限较低），说白了就是让 LLM 更懂当前游戏项目的玩法规则和场景背景，更懂只在当前项目中才会用上的一些特化指令，而这可能可以同时带来：

更好的原生性：在推理阶段压缩了 prompt 量，带来更快的响应速度，进而带来更大的设计可操作性空间。

更好的鲁棒性：对游戏场景和相关机制规则更熟悉，对特化指令更敏感。

更好的经济性：一方面会减少为了让 LLM 理解场景和对抗安全协议或天然风格（如 GPT 的助理风格）的 prompt 量，另一方面维护成本也会降低（prompt engineering 不是一个好维护的实现方式，谁用谁知道）。

但同理，天下没有免费的午餐，这些成本也可能将会转移到领域适配的技术债 SFT/RLHF/RAG 上，在当前 LLM 相关上下游技术供应链还不够完善的这个时间点，对于很多团队来说这可能会是一个比较奢侈的技术方案；不过另一方面肉眼可见 LLMOps、开源底座等相关基建都在飞速发展，我们有理由期待这将会在未来一段时间后对 LLM gameplay 落地起到相当程度的影响。

本文来自微信公众号：元住民Pro（ID：hellometapro），作者：Rolan

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

互联网云厂商大转向：在海外重燃新「战事」

Previous 2023年10月8日

小家电从“网红”到被“嫌弃”

Next 2023年10月8日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

“万能的”大模型，没有带来“无限的”游戏

相关推荐