正在路上的GPT-6,可能强在哪儿?

上图是其中一个Transformer块,我们可以看出其中包含两部分:

自注意力层算子(Self-Attention)

前馈神经网络(FFN)

自注意力机制可以用于处理输入序列中不同单词之间的关系,而前馈层则有助于从数据中提取关键特征和关系。

破局之混合体

在算法层面上Transformer模型变化基本上已经收敛很多,在与原生的Transformer相比,主要的变化包括:

架构:

使用RMSnorm代替LayerNorm

使用旋转位置嵌入代替绝对或相对位置嵌入

不使用偏置向量

使用SwiGLU激活函数代替ReLU

训练方法:

使用AdamW优化器代替Adam

采用稍微不同的学习率调度

除此以外为了克服“二次障碍”的缺陷,研究者们开发出了很多注意力机制的高效变体,但这往往以牺牲其有效性特为代价。

从ChatGPT引爆那一刻起,AI行业的竞争从来不仅是技术的竞争,也是一场资源的竞争

在硅谷,风险投资家在考量是否要投资一个AI项目团队时,一个核心的考量就是该团队是否有渠道获取必要的GPU芯片资源。只有抢占到”硅资源“才意味你有参与AI大模型竞争的入场券。

今年以来,在AI大佬的讲话里,都有一个共同的主题:缺电。马斯克预计在芯片短缺缓解后,马上将会出现电力短缺。OpenAI CEO Sam Altman也预计,AI 行业正在走向能源危机,未来 AI 技术发展将高度依赖于能源。英伟达创始人黄仁勋表示,“AI的尽头是光伏和储能,不要光想着算力。”

从哲学角度看,智力级别的提升首先需要能量级别的提升,我们将经历从缺硅到缺电的转变。Sam Altman表示,AI的第一性原理,最重要的就是能源和智能转换率的问题。而人工智能是能源的无底洞,在可控核聚变实现以前,AI可能将被能源卡脖子。

这一切的关键因素是因为Transformer本质上不是一个能效很高的算法。

二次复杂度的噩梦

在技术领域,权衡是一个永恒的主题,尤其是在设计和开发先进的AI模型时。技术的实现总需要去适配当前的现状。

目前ChatGPT、Gemini、Claude等先进的人工智能模型,都是建立在Transformer架构之上的。它们的强大之处,在于能够通过串联多个Transformer块,捕捉和理解文本数据中的复杂模式和关系。

上图是其中一个Transformer块,我们可以看出其中包含两部分:

  • 自注意力层算子(Self-Attention)


  • 前馈神经网络(FFN)

自注意力机制可以用于处理输入序列中不同单词之间的关系,而前馈层则有助于从数据中提取关键特征和关系。

那么为什么说Transformer不是一个能效很高的算法呢?下面我们来分析下Transformer中这两部分的计算分布。

  • Self-Attention(MHA)

如上图所示,在自注意力模块中,我们首先进行的是查询(Query, Q)、键(Key, K)和值(Value, V)的投影变换,这一步的计算量为(3 x s(hd)2,其中(s)代表序列长度,(h)代表头的数量,(d)代表隐状态的维度。这一步骤的目的是将输入序列转换为更适合进行注意力计算的形式。

接下来是注意力操作本身,即通过计算Q和K的点积,然后应用Softmax函数来获取权重分布,最后这些权重被用于加权求和V。这部分的计算量为(h x (s2d+s2d) + s x (hd)2)。这一步骤是自注意力机制的核心,它允许模型在处理每个序列元素时,都能够考虑到序列中的所有其他元素,从而捕获序列内的长距离依赖关系。

综上,自注意力SA模块的总计算量为(4 x s x h2 x d2 + 2 x s2 x h x d)。

  • FFN

其次是FFN模块,在FFN中对每个位置的表示进行独立的变换,其计算量为(8 x s x h2 x d2)。FFN模块包含两次线性变换和一个非线性激活函数,通常用于增加模型的表达能力。

  • 计算量分析

当我们比较SA和FFN两个模块的计算量时,可以发现,当序列长度(s)非常小时,Transformer快的计算量主要在FFN模块中。

而随着序列长度(s)的增加,SA模块的计算量增长速度会超过FFN模块,特别是当序列长度(s)超过隐长度(d)的两倍时,Transformer的总体计算量与序列长度呈二次关系增长。这意味着在处理长序列时,Transformer模型的计算资源消耗会迅速增加,从而可能导致计算资源的饱和。

可以说,Transformer 模型的二次复杂度在一定程度上可以说是其耗电的主要原因之一,特别是在处理长序列时。通俗地说,如果输入序列加倍,处理它的成本就会增加四倍。

实际上,对于较短的序列,这并不是什么大问题,但对于较长的序列,计算和内存需求都会急剧上升。

作为参考,如果我们看一下像 LLaMa-2 7B 或 Mistral-7B 这样的流行模型,尽管它们尺寸很小,但对于 256k 标记(192k 字)的序列,它们分别需要 128GB 和 32GB,尽管后者使用Grouped-Query Attention。

当前存在一些针对Attention自身的计算性能优化主要包括软硬一体的计算一致性优化和KV Cache的优化方式。

其中Flash Attention是一种硬件优化的注意力机制,利用更高速的上层存储计算单元,减少对低速下层存储器的访问次数,通过Tiling和Recomputation提高效率。Group Query Attention和MQA则通过分组查询向量和优化键值数量来减少计算量。

尽管这些方法提升了性能,但未能解决Transformer模型O(N2)复杂度问题,如果要继续提升性能,可能需要新的模型架构或算法。

因此,多年来,Transformer 由于成本过高而无法扩展到更大的序列长度,使得其一直带有“二次障碍”。

破局之混合体

在算法层面上Transformer模型变化基本上已经收敛很多,在与原生的Transformer相比,主要的变化包括:

架构:

  • 使用RMSnorm代替LayerNorm

  • 使用旋转位置嵌入代替绝对或相对位置嵌入

  • 不使用偏置向量

  • 使用SwiGLU激活函数代替ReLU

训练方法:

  • 使用AdamW优化器代替Adam

  • 采用稍微不同的学习率调度

除此以外为了克服“二次障碍”的缺陷,研究者们开发出了很多注意力机制的高效变体,但这往往以牺牲其有效性特为代价。到目前为止,这些变体都还没有被证明能在不同领域发挥有效作用。

可以说近六年来,没有什么能打败 Transformer,它是所有生成式 AI 模型的核心。许多人一直试图推翻它,但都失败了。

然而由于当前的能源问题并未解决,即可控核聚变不能短期实现,而AI大模型的计算的需求还在以指数形式的快速上升,能源问题被摆上日程。

例如,前一段时间还有媒体报道,微软为GPT-6训练搭建10万个H100训练集群,以当前美国的电网能力,一旦在同一个州的部署超过10万个H100 GPU,那么整个电网将被搞崩。

因为只要计算规模呈二次方增长,我们就会不断遇到阻塞,因为世界电网还没有为这种计算做好准备。微软为 OpenAI 建造价值 1000 亿美元的数据中心是有原因的。

这就需要我们通过权衡的方式来缓解这种现状,而就在最近,一个名为Jamba的架构似乎打破了这一局面。我想Jamba宗旨不是要取代Transformer,而是要创造混合体,在这中间找到一种平衡。

Jamba是世界上第一个基于Mamba的生产级模型。通过用传统Transformer架构的元素增强Mamba结构化状态空间模型(SSM)技术,Jamba弥补了纯SSM模型的固有局限性。提供256K上下文窗口。

如上图所示,Jamba架构引入Jamba块。它是Mamba层和Transformer的组合,两者之间还有专家混合(MoE)模块。Jamba 52B使用8层的Jamba模块,Attention和Mamba的比例是1:7 ,中间有MoE层。MoE Layers有16个专家,每个Token有i2个活跃专家。

Jamba 并不是试图在质量方面实现代际飞跃,而是证明混合架构与 Transformer 一样好,而且花费价格便宜得多。

Jamba & Manba的优势

1. 可扩展符合Scaling Law

Mamba是一种基于状态空间模型的循环神经网络,被提议作为Transformer的替代架构,而且是遵从Scaling Law缩放法则。

如上图所示,Mamba缩放与Llama(Transformer++)、之前的状态空间模型(S3++)、卷积(Hyena)和受Transformer启发的RNN(RWKV)相比的图示。

而且当前Jamba训练的52B参数MOE Mamba-Transformer混合体,据推断,该模型有12B个主动参数,且其基准分数与Llama-2 70B和Mixtral相当,如上图所示。

2. 高效的推理

Jamba或Manba或RNN的优点之一,是存储上下文长度所需的内存是恒定的,因为只需要存储 SSM 和卷积层的过去状态,而对于 Transformer 而言,它会线性增长。

破局之Moe

在人工智能等领域,一切都变化得如此之快,因此识别出哪些东西是至关重要的。模型会不断更新,模型也会不断改进,但有些突破会变得无处不在。其中之一就是混合专家(MoE)的概念。

MoE 已经变得如此普遍,以至于现在很难找到一个不是 MoE 的新的大型语言模型。GPT -4、Gemini 1.5、Mixtral 8x7B或Jamba都是 MoE,甚至有传言称 GPT-4 也是 MoE。

我们可以简单理解Moe架构将模型“分解”为更小的模型,称为专家。因此,在推理过程中,会选择一定数量的专家来“回答”该预测。

事实上,Moe它不仅计算效率更高,甚至还可以提高质量。通过提高质量来降低成本,这在技术领域是极其罕见的景象。

例如,由于实质上我们可以让大多数专家保持沉默,因此计算成本会成比例下降(如果您激活 8 个专家中的 2 个,则成本平均会下降 4倍)

许多人不知道,神经网络实际上对于它们所做的大多数预测来说都太大了。尽管每次预测都要运行整个网络,但实际上只有很小一部分模型能够发挥作用。

例如,ChatGPT,尽管它被迫运行整个庞大的网络来预测每一个新词,这需要巨大的计算工作量,但只有网络中非常特定的部分会被激活,以帮助预测新词。

换句话说,它们进行了大量不必要的计算,使得我们更大的 LLM 成为世界上最低效和最耗能的系统之一。

如今,以LLM为主导的人工智能行业消耗的电力比整个小国还要多。

但除了不受控制的消耗之外,针对每个预测运行整个模型也会对性能产生重要影响。

尽管最近取得了成功,MoE(Mixture of Experts)架构仍然面临两个问题:知识混合和知识冗余。

知识混合问题出现在专家数量有限,每个专家需要处理广泛的知识领域时。这种情况下,专家们的知识涉及面过于广泛,无法深入研究特定领域。

而知识冗余则是指在MoE模型中,不同专家学习的知识过于相似,这与模型设计初衷相违背。这里我们就不做过多地展开, 后面我们会专门出一篇文章来详解下Moe。

为了解决这些问题,Deepseek提出了一种新型的MoE架构。

Deepseek提出这些修改的目的是为了解决传统MoE模型中的挑战,并进一步提升模型的性能和效率。

首先,增加专家数量的修改旨在引入更多的专业化,以应对更广泛和复杂的主题。通过增加专家数量,可以降低每个专家负责的主题数量,使得每个专家更专注于其领域,从而提高模型在各个领域的专业性和准确性。此外,增加专家数量也会增加可能的专家组合数量,从而提高了模型对不同输入的适应能力和泛化能力。

其次,引入共享专家的修改旨在解决过度专业化可能导致的问题。尽管增加专家数量可以提高模型的专业性,但过于专业化的专家可能无法涵盖足够广泛的主题,从而限制了模型的应用范围。通过引入共享专家,即为每个预测引入一组神经元,模型可以在保持广泛知识的同时,确保在每个预测中都能涉及到适当的专业领域。

这些修改的结果清楚地展示了它们的前景和潜力。DeepSeekMoE 16B在一系列基准测试中表现出与类似模型相媲美甚至超越的性能,而其计算成本仅约为原先的40%左右。将DeepSeekMoE扩展至145B参数后,初步结果显示,它不仅在性能上保持了优势,还能与更大的密集模型相媲美,同时大幅降低了计算成本。

因此,这些修改为改进MoE模型的性能和效率打开了新的可能性,并且在当前的研究领域中备受关注和重视。

破局之更好的数据质量

最近Llama3的发布,更强调了数据工程的重要,其模型架构不变,更多的数据量和更高数据质量能够带来明显模型效果提升。

  • Llama3 与Llama2的模型结构的区别

Llama3与Llama2的模型架构完全相同,只是model的一些配置(主要是维度)有些不同,Llama2推理的工程基本可以无缝支持Llama3。在meta官方的代码库,模型计算部分的代码是一模一样的,也就是主干decoder only,用到了RoPE、SwiGLU、GQA等具体技术。

Llama3-8B与Llama2-7B的模型具体差别,主要在于:

  • vocab_size:32000 -> 128256:词汇表的扩大导致了embedding参数的增加。计算公式为(128256-32000)* 4096 * 2 字节,加上最后一层lm_head的输出维度增加,共计带来模型增大1504MB。

  • max_position_embeddings:4096 -> 8192:上下文窗口大小扩大,训练时输入的序列长度增加,推理时支持的序列长度也相应增加,但在计算上没有实际差别。

  • num_key_value_heads:32 -> 8:使用了GQA,因此key、value要复制4份。参数量会下降,K_proj、V_proj的参数矩阵会减少为Llama2-7B的1/4,总计减少1536MB。

  • intermediate_size:11008 -> 14336:FFN时的中间维度变化,但计算模式保持不变。参数量增加:32 * 4096 * (14336 – 11008) * 3 * 2 / 1024 / 1024 字节,总计增加2496MB。

综上所述,通过以上几个设置和维度的变化,最终导致模型增大2464MB,这也是从7B到8B的变化。总体而言,模型的基本计算模式并未改变。

  • Llama3与Llama2的数据工程的区别

效果提升主要是由于数据工程方面的改进,具体体现在以下几个方面:

数据量增加:

预训练阶段,Llama3使用了超过15万亿个token,是Llama2的7倍多。其中,代码相关的数据是Llama2的4倍多。这样的大规模数据量能够帮助模型更好地学习语言特征和语境。

Fine-tuning阶段的数据也非常丰富,包括来自公开获取的instruction datasets以及超过1千万个人工标注的样本。

数据质量提升:

在预训练阶段,为了确保模型在最高质量的数据上进行训练,开发了一系列数据过滤pipeline。这些管道包括使用启发式过滤器、NSFW过滤器、语义重复数据删除方法和文本分类器来预测数据质量。

在Instruction fine-tuning阶段,重视数据质量同样至关重要。通过对数据的精心整理以及对人类注释者提供的注释进行多轮质量检查,确保了数据质量的提升。

数据混合比例的探索:

进行了大量实验,评估在最终预训练数据集中混合不同来源数据的最佳方法。这种数据混合比例的探索可以帮助模型更好地泛化到不同领域和语境中,提升模型的适用性和性能。

综上所述,数据工程的改进包括数据量的增加、数据质量的提升以及对数据混合比例的探索,这些方面的改进共同促成了模型性能的提升。

从上面我们可以看出,数据工程和数据的质量,在大模型的训练中绝对占非常重要的比重。

总结

如今AI大模型所主导的人工智能行业其消耗的电力比整个小国还要多,这也是未来实现AGI发展必须要考虑的一点。

鉴于随着序列长度的增加,Transformer本身的“二次噩梦”问题,我倾向认为,未来大模型算法可能需要注意的几个点:

  • 通过考虑折中的混合体来减少能源的消耗,提升算法本身的效能。例如Jamba等类的模型,通过增强Mamba结构化状态空间模型(SSM)技术和Transformer的混合,证明与 Transformer 一样好,而且花费价格便宜得多。

  • 通过Moe混合专家的技术,将模型“分解”为更小的模型,在推理过程中,会选择一定数量的专家来“回答”该预测,从而减少大量的资源消耗。

  • 通过数据工程提升数据的质量,实验已经证明通过少了但质量较高的数据,可以实现更大规模数据和模型的效果,从而减少模型训练中的资源浪费。

本文来自微信公众号:Tim在路上(ID:CNSF-2016),作者:Pulsar planet

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月23日
下一篇 2024年4月23日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日