用起来少费电的模型,可能比GPT-5更重要

之前有不少研究大模型训练阶段能耗与排放的,但研究大模型全生命周期阶段排放的并不多。

再看下这张图,它展示了BLOOMz系列4个不同尺寸模型,在训练、精调阶段的能耗,每次推理需要的能耗及产生的排放。

由此可以看出,虽然更大的模型涌现出更多的智能,但是在GPT-4之后,继续扩大模型,在训练和推理的阶段,都会带来能耗的指数型增长,智能的涌现是否超过能耗的涌现,综合成本收益是否划算,是需要考虑的一个问题。

训练一个大模型,费算力、费电力、费数据。而且,大模型越先进,越费电。

推理更费电。

下面这张图,说的是大模型在推理阶段的能耗。生成类任务比分类任务产生更多排放,多任务比单任务产生更多排放,生成图像比生成语言产生更多排放。二氧化碳排放的原因是能耗。

之前有不少研究大模型训练阶段能耗与排放的,但研究大模型全生命周期阶段排放的并不多。

Hugging Face的Alexandra Sasha 和 Yacine Jernite , 以及卡内基梅隆大学和艾伦AI研究所的Emma Strubell,研究了大模型在推理阶段所产生的二氧化碳排放。

他们在5种不同的模态中选择了十个机器学习任务,这些在自然语言处理和计算机视觉中都很常见:

  • 文本到类别(文本分类、标记分类、抽取式问答)

  • 文本到文本(掩码语言建模、文本生成、总结)

  • 图像到类别(图像分类、对象检测)

  • 图像到文本(图像字幕)和文本到图像(图像生成)

为了代表广泛的部署用例多样性,他们抽样了88个模型,其中一些是专门为选择的任务训练或微调的,其他则是设计为零样本或多任务模型的,以比较给定任务的不同架构,并比较同一架构的不同任务。

对于每个模型,他们对其训练的任务的3个数据集中的每一个运行了1000次推理,使用Transformers 库。

他们从Flan-T5大模型家族 中选择了4个不同大小的序列到序列模型(基础、大型、超大型和超超大型),还选择了BLOOMz大模型家族中的4个解码器模型:BLOOMz-560M、BLOOMz-1B、BLOOMz-3B 和 BLOOMz-7B。

这些实验都是在亚马逊网络服务上托管的单个NVIDIA A100-SXM4-80GB GPU上运行的,并使用Code Carbon包来测量推理期间消耗的能量和排放的碳。

所有的实验都是在同一个计算区域运行的,位于美国俄勒冈州,平均碳强度为每千万时297.6克二氧化碳。这项研究和评估本身总共耗费了754.66千瓦时的能量,并排放了178.97千克的二氧化碳。

下面是更详细的结果:

从这张图可以看出,大型的、多模态的模型,产生更多的排放

(说明:模态:文分类,文生图,文生文,图生文,图分类。纵轴:模型排放,(克二氧化碳/千次推理)横轴:模型尺寸(参数量)注:坐标进行了对数处理 )

从这张图可以看出,多任务的模型比具体任务的模型产生更多的排放

说明:架构类型,具体任务Seq2Seq,具体任务编码,多任务解码,多任务Seq2Seq

纵轴:模型排放(克二氧化碳)。横轴:数据集

值得注意的是,当模型变得更大,以追求智能的涌现、能力的泛化,不仅碳排放总量增加了,而且碳排放强度也增加了。所以,在当前的算法结构下,如果说智能涌现仍然基本上不可解释,而只是一个实证的结果的话,那么最简单的实证因果就是:智能来自更多的能源

这张表格显示的是每进行1000次查询,完成每种推理任务平均消耗的能源(及其统计标准方差)。可以看到,图片生成所带来的能耗强度,是文本分类的近1500倍。

再看下这张图,它展示了BLOOMz系列4个不同尺寸模型,在训练、精调阶段的能耗,每次推理需要的能耗及产生的排放。最后是成本平价,即需要多少次推理累积,才能达到训练阶段的能耗总量。

显然,同一个模型家族,尺寸越大,不仅能耗及排放的总量越大,而且强度越大。如700亿参数模型的能耗强度,是5.6亿能耗强度的近两倍。

作者用来测试的都是开源模型。一般来说开源模型的技术报告会披露模型训练时的碳足迹,但不会披露推理产生的碳足迹。

从GPT-3之后,模型的规模越来越大,日益多任务和多模态,更多面向用户的应用开发出来,而且推理的实时性越来越强,所有这些,都意味着在通用人工智能的道路上走得越远,消耗的能源越多,产生的碳排放越多。这些环境成本应该考虑在内。

生成式人工智能正在经历一次范式转变:从为特定任务微调的小型模型转向旨在同时执行多项任务的大模型,以实时响应用户的大量查询。自从GPT-3出现以来,这种转变不仅在机器学习研究中发生,展示了语言模型在少样本和零样本学习上的潜力,而且在消费者设置中也在发生,诸如GPT-4和PaLM这样的大型语言模型被部署在面向用户的产品中,如网页搜索、电子邮件和导航,在这些领域之前通常使用的是像BERT这样的特定任务的小型模型版本。

由于闭源的商业大模型在产品的参数数量、架构和碳排放方面缺乏透明度,很难量化其环境影响,但是不妨用该研究的实验进行比较。

例如,按1000次查询来算,为抽取式问答任务(类似于抽取式网络搜索)微调的基于BERT的模型的平均排放量为0.70克二氧化碳,这不及多用途模型排放量少的三分之一(Flan-T5 为2.36克,BLOOMz-560M为2.34克)。如果将基于BERT的模型与更大的多用途模型进行比较,差异更为显著:例如多语种的情感分析模型只排放0.32克二氧化碳,相比之下Flan-T5-XL为2.66克,BLOOMz-7B为4.67克。

对比来看,2022年发布的第一个PaLM模型有5400亿个参数,而GPT-3有1750亿个参数,2023年发布的GPT-4的参数超过了万亿,可以想象其碳排放强度会有多大。虽然生成型零样本模型能够执行多个任务,但是在一些任务明确定义的情境中,例如网页搜索和导航,如果能耗那么大,是否一定有必要部署这些大模型?杀鸡焉用宰牛刀。

由此可以看出,虽然更大的模型涌现出更多的智能,但是在GPT-4之后,继续扩大模型,在训练和推理的阶段,都会带来能耗的指数型增长,智能的涌现是否超过能耗的涌现,综合成本收益是否划算,是需要考虑的一个问题。

因此,从能耗的角度来看,结合具体的使用场景,训练和精调小型的开源模型,在具体能力上不输闭源大模型,应该是一个趋势。这样就可以有更多模型部署到边缘侧和设备终端,让推理更有效率。让数据中心用上清洁电力,虽然无助于电力成本,但可以减少排放。

关于大模型在训练阶段的碳排放,可以参见我们之前发表的文章:《GPT有多耗电,微软不说,谷歌暗踩》。

2024年,用更少的能耗训练出合适的模型,让更多人以更低的推理成本使用,其重要性应该不亚于训练出GPT-5。

参考论文:

Power Hungry Processing: Watts Driving the Cost of AI Deployment? 2023年11月

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2023年12月11日
Next 2023年12月12日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日