降低AI大模型幻觉的必由之路

2024年4月29日 13:08 • 未来科技

高等数学背景还能如此类比理解范畴中的晦涩概念：

态射（morphism）是范畴内对象间的某种运算。

这就是大模型学习了各种范畴关系之后的可怕之处，毕竟范畴就是关系，关系的关系，关系的关系的关系，而海量训练语料中的各种对象，都被米田嵌入到了大模型学习的范畴中。

四、优化基于范畴的采样降低幻觉

关于大模型的幻觉，解铃还须系铃人，笔者倾向于从LLM内部解决现有问题的思路，这里有三个关键点：

Self-awareness，非自我意识，而是加强LLM对学到的范畴的结构和关系的理解。

出于众所周知的原因，《科学美国人》说《为什么说大模型永远不会停止幻觉？》。如果你还不知道这些原因，请参阅笔者对于大模型幻觉产生机理的分析文章《GPT4技术原理五：大模型的幻觉，解铃还须系铃人》。

如果你是技术背景，而且一直跟踪笔者整理的大模型的数理认知思维框架，到这里，就很可能会产生如下疑问：所有环节似乎都是在做最优化，为何结果却不准确了呢？大模型的所谓创意还会有用吗？

要回答这个问题，笔者觉得需要先从两个视角看清大模型的认知机理：范畴视角下的Transformer，和Transformer视角下的范畴。

一、范畴的必要概念

然而范畴理论是一门抽象到天际的数学理论。对于接受过常规数学教育的人来说，极易与现有数学知识体系混淆，难以理解和驾驭。笔者觉得，范畴论适合在高等数学概念还是一张白纸的时候学习。

大体可以如此理解，尽管不严谨：范畴理论是研究关系的学问，研究对象就是事物之间的关系，关系（也是一种事物）的关系，关系的关系（更高阶的事物）的关系。

高等数学背景还能如此类比理解范畴中的晦涩概念：

态射（morphism）是范畴内对象间的某种运算；
函子（ functor ）就是范畴间的函数，可以映射范畴中的对象和态射；
自然变换（natural transformation）可以类比为泛函，函数与函数间的映射。

分别对应范畴学里面讲的1、2、3阶范畴。

二、范畴视角下的Transformer

《Transformer网络的范畴 The Topos of Transformer Networks》（文献1），提供了对Transformer神经网络的范畴学阐释。

学者们声称从topos（中文译为拓扑斯，笔者觉得翻译得很怪异，可以简单理解为一类特殊的范畴）的角度对神经网络架构做了理论分析，注意到前馈Feed Forward网络架构和Transformer神经网络架构之间的以前未知的差异。一类属于pretopos，另一类则是topos completion。

这种区别使得topos completion中的架构与反向传播和架构搜索关联起来，在单一设计空间中编码许多已知的神经网络架构。优点是：多种不同的架构系列可等同，差异影响架构类的表达性，由架构中的逻辑片段来定义。关键结论如下：

第一，自注意力机制可以分解为对网络参数的选择choose和对神经网络的评估eval。

第二，分段线性函数PL构成pretopos，ΣPL 是PL 的cocompletion，Para（PL）是PL的参数化范畴，可以发现，存在函子将ΣPL中的choose态射，map 到对参数空间和范畴态射的选择，以对神经网络进行再参数化。

通俗地讲，通过预训练，找到组合分段线性函数的方式，逐层不同，就是Transformer在范畴视角下的工作机制。作者通过范畴的方式找到了Transformer 神经网络单层的本质，但是笔者觉得作者有意或者无意忽视了归一化和逐层的跨尺度重整化。

论文作者的视角与相应的结论，让人们不难看出，神经网络与传统的一些依赖核函数的机器学习算法，如高斯过程，或者支持向量机，并无本质不同。甚至跟有限元的思想也有几分神似，差别在有限元的核函数是已知的物理方程，而神经网络则是choose适合的分段线性核函数，并参数化。

万法归宗，以前笔者分析过，所有AI问题，最终都归结到概率分布距离计算和优化的问题，即 wasserstain 距离将一统天下。由此篇进一步得出，所有神经网络架构都是一个核函数选择和参数化的过程，区别是人工选择还是机器选择，选择的是PL，还是sin， cos，抑或是小波基函数。

三、Transformer视角下的范畴

不幸的是，我们希望用神经网络处理的问题，都是极其复杂的、具备极高自由度或者说极高维度的问题。这是宇宙对于人类智能的维度诅咒。随着维度的增加，会有许多反直觉现象，这带来高维空间信息处理的重大限制。

除了类似有限元等方法，对于已知物理方程的场景，人工选择核函数通常是天方夜谭；通过预训练来选择，则面临海量的数据处理效能的问题。

但高维度可增强线性可分性，使核函数方法更加有效，而我们的神经网络架构特别擅长从高维空间中选择和提取复杂模式。这里存在一种权衡：利用好这些优势，同时平衡增加的计算量与模型效能的潜在收益。

维度灾难的克星是尺度重整化。不要挑战重整化理论的数学严谨性，人类科学认知的一切其实都是近似的。大模型都是提纯知识，而不是压缩知识，比如伯克利马毅教授的信息论视角。

重整化本质是尺度从小到大，粗粒度化概率分布的过程，而深度神经网络擅长从学习小尺度结构逐级到认知全局特征，而大模型的Transformer 则可以逆重整化流，逐尺度重建微观概率分布，从而完成生成。

在范畴的相变与知识的形成一文中，笔者总结了大模型认知框架的三个关键环节：1. 重整化从海量语料中提取出范畴；2. 持续重整化驱动范畴解构重组以至相变；3. 生成过程是于范畴中采样做变分推理。

这里的范畴是Transformer视角下的高维概率向量编织起来的事物之间的各种复杂的关系，从海量的预训练数据集中提纯出来，对大量的分段线性核函数参数化后的表达。这些关系，关系的关系，关系的关系的关系，本质上，在范畴论概念下，就是对事物的米田嵌入。

米田嵌入，某种意义上是将范畴C中对象“编码”到范畴 Set^Cop 。注意C^op与C中对象相同，但是态射都是反向的。米田嵌入其实是米田编码表征，即采用该对象的所有关系来表征该对象。范畴学上称为，X 与 hom（-，X）同态或同构。

Transformer 学习的过程，是核函数选择与参数化的过程，也是寻找米田嵌入的过程：提取object 的所有关系，形成其关系图像，注意这里存在相变。

这就是大模型学习了各种范畴关系之后的可怕之处，毕竟范畴就是关系，关系的关系，关系的关系的关系，而海量训练语料中的各种对象，都被米田嵌入到了大模型学习的范畴中。所以大模型的所谓创意将会非常有用。

然而，我们体验到的大模型输出却常常含有似是而非的幻觉，导致其在严谨的企业数据分析领域的应用步履蹒跚。如供应链物流路径优化，传统的运筹学明显比Transformer更擅长。如何消除或者至少是降低大模型的幻觉呢？

四、优化基于范畴的采样降低幻觉

关于大模型的幻觉，解铃还须系铃人，笔者倾向于从LLM内部解决现有问题的思路，这里有三个关键点：

Self-awareness，非自我意识，而是加强LLM对学到的范畴的结构和关系的理解；
范畴内和跨范畴采样改进，依据更好的“范畴的结构和关系的理解”优化采样算法；
构建内部工作空间，管理短中长期多层次记忆与范畴交互，推理规划与使用工具。

这不同于RAG等从外部修正大模型输入输出以降低幻觉的方式。以下是笔者读到的最新的两个工作，都可以归为从内部解决幻觉问题的思路，特别是改进提升“范畴内和跨范畴采样，依据更好的‘范畴的结构和关系的理解’优化采样算法”。

1. GeckOpt：通过基于意图的工具选择，提高 LLM 系统效率

微软学者开发的 GeckOpt 系统引入了一种基于意图的工具选择的尖端方法（文献2）。这种方法通过前置的用户意图分析，在任务开始执行之前优化 API 工具的选择。简化 LLM 操作方面的成功，为广泛采用基于意图的工具选择方法提供了强有力的案例。通过有效降低操作负载和优化工具使用，该系统降低了成本并增强了 LLM 应用程序跨不同平台的可扩展性。

本质上是，基于对“范畴的结构和关系的理解”，对“潜在工具”范畴采样，缩小到与“任务特定要求最相关”的工具，从而实现“生成”优化：最大限度地减少不必要的API调用，并将计算能力集中在最需要的地方。

2. 具有因果图约束的神经网络：一种新的治疗效果估计方法

巴塞罗那大学的学者探索了使用机器学习技术来估计治疗效果这一核心领域（文献3）。通过分析当前依赖于表征的学习策略，提出了一种新模型NN-CGC：通过实施新的约束来解决由虚假变量相互作用产生的偏差，在治疗效果估计方面取得了该领域最领先的结果SOTA。

作者认为表征学习策略忽略了一个特定的偏差来源：模型中变量之间的虚假相互作用，也就是神经网络从海量语料中学习到的，实际上没有因果关系的变量之间的“伪”关系。这些虚假的交互作用关系，可能被作为相关捷径，扭曲估计的因果效应，特别是在数据有限的情况下。

NN-CGC背后的核心思想是约束神经网络的学习分布，也就是限定了于范畴内或范畴之间采样的方式，使其更好地与因果模型保持一致，从而有效地减少对虚假交互的依赖。其工作原理可以简述为：

根据因果图（或专业知识），将输入变量划分为组。每个组都包含彼此因果相关的变量。每个变量组通过一组层单独处理，对结果变量及其直接原因的独立因果机制进行建模。通过单独处理每个变量组，NN-CGC 确保学习的表征不受来自不同组的变量之间的虚假交互的影响。独立组表示的输出被组合并通过线性层传递，形成最终表征。

五、写在最后

“今天的 LLM 从来都不是为了纯粹准确而设计的。它们被创造出来是为了创造。没有办法保证所生成内容的真实性，所有创造力在某种程度上都是幻觉”。因而笔者一直强调现阶段大模型应用场景选择的一个最重要原则：创意大于准确性。

但是大模型技术日新月异地发展，即使大模型永远不会停止幻觉，在未来，专业系统也会验证LLM输出，为特定环境优化的人工智能工具将部分取代今天的通用模型。其中最重要的改进方向就在于，通过引导大模型学习人类特定的先验，更好地理解“范畴的结构和关系”，优化范畴内和跨范畴采样算法，将幻觉降低到“不可见”范围，尽管很难消除为零。

参考文献：

文献1：https：//arxiv.org/pdf/2403.18415.pdf

文献2：https：//arxiv.org/abs/2404.15804

文献3：https：//arxiv.org/abs/2404.12238

本文来自微信公众号：清熙（ID：qingxitech），作者：王庆法

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

深耕AI领域10年，商汤靠日日新5.0股价大涨31.15%

Previous 2024年4月29日

爱奇艺赚钱了，但没有上岸

Next 2024年4月29日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

降低AI大模型幻觉的必由之路

相关推荐

Share To :