拯救被“掰弯”的GPT-4

将IN2训练应用于Mistral-7B,得到了新模型FILM-7B(FILl-in-the-Middle),然后测试为长上下文设计的三个新的提取任务。

训练

整个训练数据集包含:1.1M用于细粒度信息感知的长上下文数据(∼63%)、300K用于信息整合和推理的长上下文数据(∼17%)、150K短上下文问答数据(∼9%)和200K通用指令调整数据(∼11%)。

辛辛苦苦给大语言模型输入了一大堆提示,它却只记住了开头和结尾?

这个现象叫做LLM的中间迷失(Lost in the Middle),是大模型当前仍面临的最大挑战之一。

毕竟,LLM现在的上下文长度已经冲到了百万级别,而难以处理中间的信息,会使得LLM在评估大量数据时不再可靠。

其实,我们人类也有类似“中间迷失”的毛病,心理学上叫“Primacy/recency effect”:“我怕零点的钟声太响……后面忘了”。

不过就在不久前,来自西交、微软和北大的研究人员,开发了一种纯粹的数据驱动解决方案,来治疗LLM丢失中间信息的症状:

论文地址:https://arxiv.org/pdf/2404.16811

研究人员认为,Lost in the Middle的原因是训练数据中的无意偏差。

因为LLM的预训练侧重于根据最近的一些token预测下一个token,而在微调过程中,真正的指令又往往位于上下文开始的位置。

这在不知不觉中引入了一种立场偏见,让LLM认为重要信息总是位于上下文的开头和结尾。

基于这样的见解,研究人员提出了信息密集型(INformation-INtensive,IN2)训练方法,来建立数据之间的桥梁。

既然是训练过程造成的偏见,那么就用训练数据来解决。

IN2训练使用合成问答数据,向模型显示指出重要信息可以位于上下文中的任何位置。

整个上下文长度(4K-32K个token),被分为许多128个token的片段,而答案所对应的信息位于随机位置的片段中。

研究人员使用了两种类型的训练问题:一种是要求在一个片段中提供细节,另一种是需要整合和推断来自多个片段的信息。

IN2训练到底效果如何?使用明星模型Mistral-7B来试试。

将IN2训练应用于Mistral-7B,得到了新模型FILM-7B(FILl-in-the-Middle),然后测试为长上下文设计的三个新的提取任务。

测试任务涵盖不同的上下文类型(文档、代码、结构化数据)和搜索模式(向前、向后、双向)

结果表明,IN2显著降低了原始Mistral模型的“中间丢失”问题。更厉害的是,作为只有7B的模型,FILM的性能在很多情况下甚至超越了GPT-4 Turbo。

在保持自己执行短上下文任务能力的同时,FILM-7B在各种长上下文任务中也表现出色,例如总结长文本,回答有关长文档的问题,以及对多个文档的推理。

上表是不同模型在现实的长上下文任务中的表现。与本体Mistral-7B 相比,INformation-INtensive (IN2)训练带来的提升很明显,FILM-7B的综合成绩仅次于GPT-4 Turbo。

不过有一说一,Lost in the Middle的问题并没有完全解决,而且在长上下文存在问题的情况下,GPT-4 Turbo也仍然是上下文基准中最强的模型。

Lost in the Middle

LLM丢失中间信息的问题最早由斯坦福、UC伯克利和Samaya AI的研究人员在去年发现。

论文地址:https://arxiv.org/pdf/2307.03172

当面对较长的信息流时,人类倾向于记住开头和结尾,中间的内容更容易被忽视。

没想到LLM也学会了这个套路:对于从输入中检索信息的任务,当信息位于输入的开头或结尾时,模型的表现最好。

但是,当相关信息位于输入的中间时,性能会显著下降。尤其是在回答需要从多个文档中提取信息的问题时,性能下降尤为明显。

真是干啥啥不行,偷懒第一名。

模型必须同时处理的输入越多,其性能往往越差。而在实际应用场景中,往往就是需要LLM同时均匀地处理大量信息。

另外,研究结果还表明,大型语言模型使用额外信息的效率是有限的,具有特别详细指令的“大型提示”可能弊大于利。

对于许多长上下文LLM,中间信息丢失的现象普遍存在。上表测试了当时市面上流行的各种款式LLM,包括GPT-4,一共是七种。

可以看出,不论是开源还是闭源模型的强者,测试结果都显示出明显的U形曲线,说明都是在两头效果好,而中间就拉跨了。

即使强如GPT-4,也难逃被“掰弯”的命运。

这也不禁让人质疑:你们这些卷超长上下文的模型到底有没有用啊?不但吃得多,中间信息也记不住。

信息密集型训练大法

为了明确教导模型,在长上下文中的任何位置都可以包含关键信息。研究人员构建了一个长上下文问答训练数据集 D = {L,q,a},其中问题q的答案a,来自长上下文L中的随机位置。

下图展示了整个数据构建过程。具体来说,训练数据D基于通用自然语言语料库C。给定一个原始文本,首先使用LLM(GPT-4-Turbo)生成一个问答对 (q,a),然后合成一个长上下文 L,其中包括来自C的其他随机抽样文本的必要信息。

上图包含两种类型的问答对:(1)对长上下文中细粒度信息的掌握;(2)对长上下文中不同位置出现的信息进行整合和推理。

细颗粒度信息感知

将包含128个token的段视为上下文的最小信息单元。给定一个原始文本C,首先从中随机提取一个128个token的段s,然后生成q、a和 L:

信息整合和推理

除了利用每个片段之外,研究人员还考虑为两个或多个片段中包含的信息生成问答对。

按照上面最小信息单元的设置,同样将全文拆分为一组128个token的段 [s],然后相应地生成 q、a和L:

使用LLM生成多条问答对,保证每个问题对应的答案至少需要两个段内的信息。

训练

整个训练数据集包含:1.1M用于细粒度信息感知的长上下文数据(∼63%)、300K用于信息整合和推理的长上下文数据(∼17%)、150K短上下文问答数据(∼9%)和200K通用指令调整数据(∼11%)

使用上面构建的训练数据,研究人员对Mistral-7B-Instruct-v0.2执行 IN2训练:将长上下文和问题作为指令,并使用答案部分的损失来更新模型。

超参数:将全局批处理大小设置为128,使用余弦学习率衰减,最大值为1e-6。

模型训练在16个80G A100 GPU上进行,采用由pytorch FSDP实现的完整分片策略和cpu卸载策略,整个训练过程耗时大约18天。

VAL探测

研究人员提出了VAL探测方法,作为评估语言模型上下文性能的更合适的方法,涵盖了不同的上下文风格和检索模式,以进行更彻底的评估。

下图表示VAL探测中的三个任务。检索模式由检索关键字与要检索的信息之间的相对位置决定。

这里考虑了三种上下文样式(文档、代码和结构化数据上下文)和三种检索模式(前向、后向和双向检索)

VAL探测中的每个上下文都包含约32K个token,每个任务包含约3K个示例。

文档句子检索(双向)上下文由许多自然语言句子组成,目的是检索包含给定片段的单个句子。这些句子是从arXiv上的论文摘要中抽取的。

此任务遵循双向检索模式,因为预期的检索结果包含上下文中给定片段之前和之后的单词。评估指标是单词级别的召回率分数。

代码函数检索(向后)上下文由Python函数组成,目的是检索函数定义中给定代码行的函数名称。原始代码函数是从StarCoder数据集中采样的,并为每个函数随机选择三行定义。

此任务遵循向后检索模式,因为函数名称始终位于定义之前。评估指标是匹配精度。

数据库实体检索(向前)上下文包含结构化实体列表,每个实体都有三个字段:ID、label和description,目的是检索给定ID的标签和说明。这些实体是从维基百科数据中采样的。

此任务遵循正向检索模式,因为标签和说明跟随ID。以宽松的匹配准确性作为衡量标准:如果响应中的标签或描述完全匹配,则给出1分,否则为0分。

参考资料:https://the-decoder.com/new-ai-training-method-mitigates-the-lost-in-the-middle-problem-that-plagues-llms/

本文来自微信公众号:新智元(ID:AI_era),作者:alan

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年5月23日
Next 2024年5月23日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日