论,AI的胡说八道

基本可以这么粗暴地理解大模型生成自然语言的原理:按照被训练数据集,权衡概率和各种场景(通常由你提问中击中的提示词来决定),一个接一个的猜字(没错,就是你看到的各种GPT对话框里一个一个蹦字的样子),同步也会有一些交叉比对和优化。

在一些关于大模型“幻觉”问题的论文当中,普遍会将“幻觉”划分为“信息冲突(Intrinsic。

如果你在这一年里热衷于跟随潮流,把玩过各种大模型AI对话产品,那十有八九,你的乐趣和吐槽都会集中在一个现象:它怎么总是这么能胡说八道!

关羽会点穴,宋江字武松,八戒黛玉结拜兄弟……你觉得还算逗吧;可要是这毛病要是出现在严肃的专业领域呢?一则胡编的安眠药服用指南?一条杜撰的恐怖袭击新闻?(是的,这些例子都曾真的出现过)

大模型满嘴跑火车(应该是“满屏”?),这有个学名,叫“幻觉(Hallucination)”。

“幻觉”不是AI的专利——鲁迅没说过

作为人类,挺容易理解这个词:年入千万迎娶白富美;别人问身高永远一米九;对面工位的小姐姐总冲着你飞眼儿……(我有一个朋友,他就经常出现这些幻觉)

基本上,AI的幻觉和人的幻觉成因差不多,无非:

1. 本性流露

2. 不懂装懂

3. 自我认知偏差

4. 喝多了

“您丫贵姓?”

一个普遍的共识是:“幻觉”来自(至少是这一代)大模型原理本身。

想象你有一个从未接受过中文学习的朋友,没有任何资料为他解释任何词义和背景——哥们唯一认知中文的方法就是不借助任何意义的生硬模仿和自我猜测

有一天,闲得难受的你去挑战这个哥们:请你用一句地道的老北京话来跟我打招呼问好。(是不是很像你平日里调戏大模型聊天机器的嘴脸?)

于是,这哥们开始了认真的计算和思索:首先,老北京是吧,打招呼得用“您”开头,客气嘛;然后他开始满脑子搜索遇到的胡同大爷语录,既然不知道意义,就从“打招呼”这个场景下随机找一个吧,在“吃了么您内?”和“溜达去啊?”等等之中,他选择了“贵姓”,简短而有节奏感;这时候反过来再读一遍,似乎差点什么能加强语气、显得更自然的东西,那就在“您”后面润色个“丫”吧,他谦卑又得意地想到,“我在大街上经常听他们这么说”,肯定地道!

再于是……

基本可以这么粗暴地理解大模型生成自然语言的原理:按照被训练数据集,权衡概率和各种场景(通常由你提问中击中的提示词来决定),一个接一个的猜字(没错,就是你看到的各种GPT对话框里一个一个蹦字的样子),同步也会有一些交叉比对和优化——AI们并不真的“懂”文字背后的意义,它们只是模仿。

因此,“幻觉”就是这一代大模型不可分的一部分。被称为“AI三巨头”之一的Meta首席科学家Yann LeCun就曾说过“‘幻觉’可能是大语言模型的固有特性……它们没有真实世界的经历,而这才正是语言的根基……”

换而言之,很多人会将“幻觉”与“创造性”当作当前大模型的一体双面。

“大明白”们错在了哪?

在一些关于大模型“幻觉”问题的论文当中,普遍会将“幻觉”划分为“信息冲突(Intrinsic Hallucination)”和“无中生有(Extrinsic Hallucination)”两类——根据腾讯混元大模型相关技术负责人的介绍:一种可以理解为“有源”,就是大模型输出的东西和你输入给他的信息不符;另一种可理解为“无源”,就是大模型编造了一些和事实不符、和现实世界不符的胡话。

这里面,导致“大明白”养成的,主要集中在了训练集里的“数据清洗”,以及一个名为“对齐(Alignment)”的环节。

还是说回你那位不懂中文、刚被你一顿暴锤的朋友。他终于学会了中文,代价除了鼻青脸肿,还有多了个“信心爆棚”新毛病。他开始喜欢跟你用流利的中文吹嘘自己的博学,各种知识信手拈来,你问他什么他都懂,从二战风云到隋唐演义,从室温超导到抗癌新药……直到你发现,他的这些知识都来自于各种社交媒体短视频和相亲相爱一家群。

这就是在原始数据集出了问题,修正办法有两种,一是让他多看果壳,增大这部分靠谱信息来源的比例;二是同时降低他之前那些不良信息渠道的比重,并且“标注”或“清洗”掉其中可疑和完全不可信的成分。

相比数据清洗,“对齐”是一个更加宽泛的概念。你也许曾在很多“互联网黑话词典”中频繁地看到过这个词,但这里的意义有所不同。技术专家给出了一个更浅显易懂的解释:所谓“对齐”,就是让大模型能够理解人的指令,能够和人的认知和需求对应起来,“对齐”就是这一系列技术动作的总称。

“对齐”几乎是目前大模型开发和调试中最决定成败的一环。低质量的对齐,轻者会诞生越来越多“人工智障”段子;严重的,则会出现输出的暴力、偏见、歧视,和失实。

你也许听过一类无聊至极的相声段子模板,叫“答非所问”:面对甲提的问题,乙必须给出一个毫不相干的答案,天上一脚地上一脚那种,比如“您贵庚?”“我吃的炸酱面。”想象一下你那个刚学会中文的“大明白”朋友,要是他在学习中文时主要依靠这样的段子来模仿,结果就是你不能说他中文不流利,但学成了一个“烦人精”。

再举个例子,阿西莫夫大名鼎鼎的“机器人三定律”,就是一种对齐。

喝多了,大家都一样

还记得去年夏天,谷歌工程师Blake Lemoine宣称LaMDA模型具有自我意识,和他掏心窝子谈论宇宙人生的故事么?

还有今年年初,纽约时报专栏作家Kevin Roose宣称,微软一款代号为Sydney的聊天机器人向他表白,并且企图拆散他的婚姻。

这是“幻觉”的另一个重要成因——人为的引诱和误导

对于大模型,每一次的提问,可能都会成为一次引诱。这些AI产品以回答为目的,因此当数据库中不存在“现成且确切”的答案时,它仍然无法抗拒人类的问题指令,而必须生成一则答案。当这种使命遇到了有意或无意“偏颇诱惑”时,那些胡说八道就应运而生了。“林黛玉倒拔垂杨柳”和“隧道上为何总建一座山”,都是此类。

这和你身边的“大明白”心理活动一个意思:“既然你诚心发问了,我就大发慈悲地告诉你!”

既然机器只是现实语言的模仿者,它并不知道自己的边界,诱导性的提问就像酒精,让它更迷糊,却也更“想”侃侃而谈了。有一个更简单的例子,也许你看过一则曾经火爆的短视频,一个中国幼儿正在接受父母的英语考察:

问:“爸爸怎么说?”

答:“Father!”

问:“妈妈怎么说?”

答:“Mother!”

问:“爷爷奶奶呢?姥姥呢?怎么说?”

答:“爷ther!奶ther!姥姥ther!”

对于身为初级模仿者的孩子,前面正确答案的后缀,就成为诱导出后面“幻觉”答案的线索了。

回到前面说的两个认为自己与AI产生情感交流的案例,后来都被发现他们在与AI对话中,都有意或无意做了人为的强干扰和误导引诱——他们的话引发了AI的“幻觉”,而这种结果又让人本身也跟着“幻觉”了起来。

但的确,都喝多的两个人的确更容易擦出火花。

幻觉必须死么?

首先是不可能,至少是这一代不可能。但是,去无限接近于“零幻觉”的每一次努力都弥足珍贵,也价值连城。

因为抛开那些哈哈一笑便置之脑后的段子,“幻觉”严重地限制了大模型在各个专业领域的应用,阻碍了各种“专家系统”的搭建和普及。如果人们对于每一则答案都要人为地二次确认,这将成为这场技术革命的灾难。

如果去查一查今年的AI行业新闻,就会发现,对于“低幻觉”的追求几乎伴随着大模型火爆的全程。

从春到秋,OpenAI每隔一段时间就会发布一些降低幻觉的内容和新突破:优化数据源、引入人工干预和监督、增强外部知识检索、增加模型透明度(似乎这点也只是说说),他们还公布过一种叫做“过程监督”的办法,即在模型计算过程中,奖励每一步正确的推理,从而保证结果的确切。

春末夏初,马斯克也曾宣称,自己的AI公司要搞一个TruthGPT——“一种诚实的语言模型,最大的求真人工智能,能理解宇宙本质”。(当然,这谁都不说不好,是不是马斯克本人的另一种幻觉)

秋季,腾讯混元大模型亮相,实现幻觉比例降低30%。根据介绍,这是使用了一种名为“探真”的技术,在预训练阶段就开始做干预,可以通俗地理解成动用了一种“分类器”,将模型内部推理过程中可能出现“幻觉”的“隐状态”识别出来,并在过程中就实施干预。

而其他林林总总的各种国内外大模型,也几乎都把“低幻觉”用作发布会和每一次版本更新上的字号最大的那页PPT。

很多专业人士也都表示,也许,只是也许,下一代大模型才能够在技术基础层面实现“零幻觉”的可能,也许三五年,也许十年八年。

说到这你大概也能感受到了:“幻觉”这东西,真是一个奇妙的隐喻——无论是对于我们这个时代的人机关系,还是技术浪潮。它让每一个技术人员抓破头,却也让技术冲破壁垒,成为每一个普通人都跃跃欲试的饭后餐点。

几乎每一部美剧喜剧中,都会出现一句台词“No one like know-it-all”。对于我们这些普通使用者,有时候应付“幻觉”的方式也很简单:严肃点,别瞎逗,它胡说的时候别把它当“人”——就像你对待身边的那些恼人“大明白”一样。

本文来自微信公众号:果壳 (ID:Guokr42),作者:睿悦,编辑:卧虫

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年11月7日
下一篇 2023年11月7日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日