1次训练用电2.4亿度,AI为什么那么耗电?

在OpenAI训练大语言模型GPT-4时,完成一次训练需要约三个月时间,使用大约25000块英伟达A100。要训练这种规模的模型,需要在大规模数据集上反复迭代,每一次迭代都需要计算和调整其中数十亿、数百亿乃至数千亿个参数的值,这些计算最终会表现为晶体管的开开关关,和集成电路中细细的电流。

就在前几天,有微软公司的工程师说,为了训练GPT-6,微软和OpenAI建造了巨大的数据中心,将会使用10万块英伟达H100。

今天我们所说的人工智能(AI),主要指的是生成式人工智能。而其中一大部分,是基于大语言模型的生成式人工智能。

它们需要大规模的数据中心来训练和推理。这些数据中心由大量服务器组成,服务器消耗的电能绝大部分转化成了热能,最后通过水冷系统释放出来。所以也可以说,AI的物理硬件是个巨大的“电热水器”。

这个说法听起来好像有点奇怪。我们都知道,服务器是一种电子计算机,而计算机中处理的是信息。信息和能量又有什么关系呢?

还真有。

处理信息需要消耗能量

1961年,在IBM公司工作的物理学家拉尔夫·兰道尔(Rolf Landauer)发表了一篇论文,提出了后来被称为“兰道尔原理”(Landauer’s Principle)的理论。这一理论认为,计算机中存储的信息发生不可逆的变化时,会向周围环境散发一点点热量,其散发的热量和计算机当时所处的温度有关——温度越高,散发的热量越多。

兰道尔原理连接起了信息和能量;更具体地说,连接到了热力学第二定律上。因为逻辑上不可逆的信息处理操作,也就意味着湮灭了信息,这会导致物理世界中熵的增加,从而消耗能量。

这一原理自提出以来遭受过不少质疑。但是近十几年来,兰道尔原理已被实验证明。2012年,《自然》杂志发表了一篇文章,研究团队首次测量到了一“位”(bit)数据被删除时释放的微量热量。后来的几次独立实验,也都证明了兰道尔原理。

所以,处理信息是有能量成本的。

现在的电子计算机在计算时实际消耗的能量,是这个理论值的数亿倍。科学家们一直在努力寻找更高效的计算方法,以降低成本。不过从目前的研究进展情况来看,也许只有真正的室温超导材料能广泛应用于计算设备时,这个能耗才有可能离兰道尔原理所描述的理论值近一些。

AI大模型确实需要大量计算。它的工作过程大致可以分为训练和推理两个阶段。在训练阶段,首先需要收集和预处理大量的文本数据,用作输入数据。然后在适当的模型架构中初始化模型参数,处理输入的数据,尝试生成输出;再根据输出与预想之间的差异,反复调整参数,直到模型的性能不再显著提高为止。而在推理阶段中,则会先加载已经训练好的模型参数,预处理需要推理的文本数据,再让模型根据学习到的语言规律生成输出。

无论是训练还是推理阶段,都是一连串信息重组过程,也同样遵循兰道尔原理。而我们也不难推知,模型的参数量越大,需要处理的数据越多,所需的计算量也就越大,所消耗的能量也就越大,释放的热量也就越多。

只不过,这只是AI耗电中微不足道的一小部分。更大的消耗来自另一个我们更熟悉的物理定律:焦耳定律。这就要从集成电路说起了。

更“大头”能耗来自电流

今天的电子计算机建立在集成电路的基础上。我们经常把集成电路叫做芯片。每个芯片中,都有许多晶体管。

不严格地描述,晶体管可以理解成微小的开关。这些开关串联或者并联在一起,就可以实现逻辑运算。“开”和“关”表示两种状态,也就是所谓的1和0,这就是计算的基本单位“位”。它是计算机二进制的基础。计算机通过快速改变电压,来拨动这些开关。

改变电压,需要电子流入或流出。而电子流入流出,就构成了电流。又因为在电路中总是有电阻,就产生了热能。焦耳定律告诉我们,产生的热量与电流的平方成正比,与导体电阻成正比,与通电时间成正比。

集成电路技术发展到今天,芯片中的晶体管已经变得极为微小。所以,单个晶体管所产生的热量并不会太高。但问题是,芯片上的晶体管实在是已经多到了常人无法想象的程度——比如,在IBM前几年发布的等效2纳米制程芯片中,每平方毫米面积上,平均有3.3亿个晶体管。再小的热量,乘上这个规模,结果一定相当可观。

一个可能让人大跌眼镜的有趣事实是,今天芯片单位体积的功率,比太阳核心多出好几个数量级。典型的CPU芯片功率大概是每立方厘米100瓦,即每立方米1亿瓦;而太阳核心的功率只有每立方米不到300瓦。

在OpenAI训练大语言模型GPT-4时,完成一次训练需要约三个月时间,使用大约25000块英伟达A100 GPU。每块A100 GPU都拥有540亿个晶体管,功耗400瓦,每秒钟可以进行19.5万亿次单精度浮点数的运算,每次运算又涉及到许多个晶体管的开关。

容易算出,仅仅是这些GPU,一次训练就用了2.4亿度电。这些电能几乎全部转化成了热能,这些能量可以将大约200万立方米冰水——大概是1000个奥运会标准游泳池的水量——加热到沸腾。

为什么AI需要用这么多的强大GPU来训练?因为大语言模型的规模实在太大。GPT-3模型拥有1750亿参数,而据推测,GPT-4拥有1.8万亿参数,是GPT-3的十倍。要训练这种规模的模型,需要在大规模数据集上反复迭代,每一次迭代都需要计算和调整其中数十亿、数百亿乃至数千亿个参数的值,这些计算最终会表现为晶体管的开开关关,和集成电路中细细的电流——以及热量。

能量无法创造也无法消灭,它只能从一种形式转化成另一种形式。对于电子计算机来说,它最主要的能量转化方式,就是从电能转化成热能。

大语言模型也是如此。它对电能和冷却水的需求,正带来越来越严重的环境问题。

回收“电热水器”中的热量?

就在前几天,有微软公司的工程师说,为了训练GPT-6,微软和OpenAI建造了巨大的数据中心,将会使用10万块英伟达H100 GPU——性能比A100更强,当然功耗也更大——但是,这些GPU不能放在同一个州,否则会导致电网负荷过大而崩溃。

AI发展带来的能源短缺问题,已经开始浮现。在今年的达沃斯世界经济论坛上,OpenAI的CEO山姆·阿尔特曼(Sam Altman)认为,核聚变可能是能源的发展方向。但要开发出真正可用的核聚变技术,可能还需要一些时间。

水的问题也是一样。过去几年,那些在AI大模型领域先行一步的大企业们,都面临水消耗大幅增长的局面。2023 年6月,微软公司发布了2022年度环境可持续发展报告,其中用水一项,有超过20%的显著增长。谷歌公司也类似。

有研究者认为,AI的发展,是这些科技巨头用水量剧增的主要原因——要冷却疯狂发热的芯片,水冷系统是最常见的选择。为AI提供硬件基础的数据中心,如同一个巨大的“电热水器”。

如何让这些散失的热能不至于白白浪费?最容易想到也容易实现的,是热回收技术。比方说,将数据中心回收的热量用于提供民用热水,冬季提供民用采暖。现在有一些企业已经着手在回收废热再利用了,例如中国移动哈尔滨数据中心、阿里巴巴千岛湖数据中心等。

这大概也算是一种解法,但并不能从根本上解决问题。AI产业的发展速度之快,在人类历史上没有任何产业能与之相比。平衡AI技术的发展与环境的可持续性,可能会是我们未来几年的重要议题之一;技术进步和能源消耗之间的复杂关系,从来没有这么急迫地出现在人类面前。

本文来自微信公众号:返朴 (ID:fanpu2019),作者:猛犸,本文受科普中国·星空计划项目扶持,出品:中国科协科普部,监制:中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月12日
下一篇 2024年4月12日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日