无限上下文、2万亿token，它能干翻Transformer？

2024年4月17日 14:33 • 未来科技

长上下文评估

针对不同长上下文的困惑度，证明了Megalodon可以利用很长的上下文进行下一个token预测的能力。

其他评测集，如原始语音分类、ImageNet-1K、WikiText-103和PG-19的结果如下：

一些感想

这里quote一下这项研究原作者的一些感悟和经历：

这个工作从有想法到最终完成，经历了近两年的时间。

继Mamba之后，又一敢于挑战Transformer的架构诞生了！

来自Meta、南加州大学（USC）、CMU和UCSD的研究人员提出了全新的神经网络架构——Megalodon（巨齿鲨）。

这是专为有效处理“无限上下文”长度的LLM预训练，以及推理而设计的架构。

论文地址：https://arxiv.org/abs/2404.08801

我们都知道，Transformer架构在处理长上下文时，会受到二次复杂度，以及长度外推能力弱的限制。

尽管已有二次方解决方案（诸如线性注意力，状态空间模型），但它们在预训练效率，甚至下游任务的准确率上，通常还不及Transformer。

Megalodon的出现，就是为了解决无限处理上下文的难题。

同时，它可以同时实现高效训练（减少通信和计算量），以及高效推理（保持恒定的KV缓存）。

值得一提的是，在与Llama 2的直接比较中，Megalodon在处理70亿参数和2万亿训练token的任务上，不仅训练更高效，而且准确率也超过了Transformer。

具体来说，Megalodon的训练损失为1.70，位于Llama2-7B（1.75）和 13B（1.67）之间。

这一改变范式的创新代表着AI领域的巨大飞跃，Megalodon开启了计算效率和性能的新时代。

GPT-3发布以来最大的里程碑

网友表示，先是谷歌，又是Meta，无限上下文离我们更进一步，LLM将会释放出无限潜力。

还有人认为“无限上下文长度，绝对是游戏规则的改变者”。

更有甚者，初创公司CEO称，“这是自GPT-3发布以来最大的里程碑，但却没有任何动静？

Megalodon就相当于是AGI的基础”。

“Meta的Megalodon是一项突破性进展，对AGI具有重要意义。它的无限上下文长度模拟了人类的认知，实现了无缝任务切换”。

论文作者Hao Zhang表示，这是一种全新替代Transformer的架构。

论文作者Beidi Chen称，“注意力虽好，但你不需要完整的注意力机制”。

普林斯顿助理教授Tri Dao表示，“将SSM/RNN/EMA与注意力相结合是获得更高质量、更长上下文和更快推理的方法！Griffin、Jamba、Zamba和现在的Megalodon都是很好的例子”。

革命性架构，训练更稳定

那么，Megalodon架构采用了怎样的设计，才能取得如此优异的表现？

据介绍，它基于MEGA架构进行了改进，并新增了多个技术组件。

首先，复杂指数移动平均（CEMA）组件是一种全新技术，扩展了MEGA中使用的多维阻尼指数移动平均方法到复数域，可以增强模型处理复杂数据的能力。

其次，研究人员提出了一种创新的归一化技术——“时间步归一化层”。

它将传统的组归一化技术扩展到自回归序列建模任务中，允许模型在处理序列数据时，进行有效的归一化。

以往，“层归一化”（Layer Normalization）与Transformer相结合性能，虽令人印象深刻。

但很明显，层归一化并不能直接减少时间步长或顺序维度的内部协变量偏移。

另外，“组归一化”（Group Normalization）虽比“层归一化”在CV任务中获得改进，但它却无法直接应用于Transformer的自回归序列建模，因未来信息会通过时间步维度的均值和方差泄漏。

如下图所示，c展示了Megalodon架构中，层标准化和时间步标准化的方法。

最后，研究人员为了增强大规模LLM预训练的稳定性，提出了将归一化注意力，和带有两跳残差的预归一化相结合的配置。

这种配置可以优化模型的学习过程，提高训练的稳定性。

下图3中，a是Megalodon的完整框架草图。

中间和右边两张图分别介绍了，预归一化和带有两跳残差预归一化的配置。

2T token训练，性能超越Llama2-7B

在具体实验评估中，研究人员将Megalodon扩展到70亿参数规模，并将其应用于2万亿token的大规模LLM预训练中。

此外，作者还在中/小参数规模的序列建模基准上进行了实验，包括Long Range Arena（LRA）、Speech Commands上的原始语音分类、ImageNet-1K上的图像分类，以及WikiText-103和PG19上的语言建模。

结果显示，在这些任务中，Megalodon在各种数据模式下的表现明显优于所有最先进的基线模型。

数据学习效率

通过训练损失图以及多个benchmark的结果可以看出，Megalodon比Transformer在7B参数下有更好的数据学习效率。

计算效率

针对不同的4K和32K上下文长度，Megalodon这一架构的预训练的计算效率也是非常强的。

学术基准短上下文评估

具体来说，研究人员在短上下文（4K token）的标准学术基准上，对Megalodon和Llama 2，以及开源基础模型进行了比较。

在相同的2万亿token训练后，Megalodon-7B的表现明显优于Llama2-7B。

长上下文评估

针对不同长上下文的困惑度，证明了Megalodon可以利用很长的上下文进行下一个token预测的能力。

图5显示了，验证数据集在4K到2M各种上下文长度下的困惑度（PPL）。

在Scroll数据集中的长上下文QA任务中，Megalodon在NaQA上获得最佳F1，并与Llama 2 Long相竞争。

中等规模基准评估

在Long Range Arena（LRA）的测试中，新架构显著缩小了分块注意力和全注意力之间的性能差距。

其他评测集，如原始语音分类、ImageNet-1K、WikiText-103和PG-19的结果如下：

一些感想

这里quote一下这项研究原作者的一些感悟和经历：

这个工作从有想法到最终完成，经历了近两年的时间。期间经历数次失败，也学习到了很多大规模预训练时代正确做科研的方法。

通过这个项目，研究者们也体会到了在大模型时代做新的模型架构时要注意的问题。总结来说：

对于两个不同模型架构的比较必须要在数据完全相同的条件下才有说服力。当数据不同的时候，哪怕不同的比例很小（<10%），最后的结果也可能有明显的差别。包括training loss和下游任务的结果，都受到训练数据的很大影响。

对于不同的架构，一定要在模型得到充分训练的条件下的比较才有意义。例如对于7B大小的模型，2T的训练数据几乎是基本要求。有的模型可能在数据少的时候表现得很好，但是数据规模增大后反而落后其他模型。因此，对于大模型架构的比较，结果有说服力的前提是充分的训练。

对于架构差别很大的模型，传统的基于flops的scaling law的比较意义在降低。原因是两个不同架构的模型，即使有相同的flops，他们的实际速度可能差几倍。这个和架构算法本身是不是适合在最先进的GPU上计算有很大的关系。因此，真正贴合实际的比较方法是像本文中那样分成数据学习效率和计算效率两个方面。但是这样在实际中对于研究员的工程能力有很高的要求。在大模型时代，新算法的开发已经和系统等方面高度结合在一起。

参考资料：

https://arxiv.org/abs/2404.08801

https://zhuanlan.zhihu.com/p/692682649

本文来自微信公众号：新智元（ID：AI_era），作者：新智元，编辑：桃子、好困

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

小红书远征迷局

Previous 2024年4月17日 14:33

SK-II接连撤柜，“神仙水”走下神坛？

Next 2024年4月17日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

无限上下文、2万亿token，它能干翻Transformer？

相关推荐