大模型引发“暴力计算”,巨头加速推进液冷“降温”

新华三集团液冷服务器产品经理何伟宇认为,随着产品的快速迭代,单机柜功率密度的持续演进,对于数据中心的散热系统提出了更高的要求,像北上广深等一线城市对于空间和散热的需求则更为严苛,普通风冷机房的制冷效率已经大大制约了新技术和高算力的演进,这在一定程度上也推动了液冷技术在数据中心的发展和普及。
据招商研报,数据中心TCO(总成本),在不计算服务器折旧与服务器运营成本的情况下,当单机柜功率>15kW时,冷板式液冷TCO优势明显,当单机柜功率>30kW时,浸没式液冷开始出现优势。

文|姚悦

编|王一粟

一进入部署了液冷服务器的数据中心,不仅没有嘈杂的风扇声,甚至在不开空调的夏日也完全没有闷热感。

在大模型引发“暴力计算”的热潮下,数据中心的上下游,正在加紧推进液冷“降温”。

半年来,服务器厂商在液冷产品上纷纷推出新的解决方案。比如,中兴通讯的新G5系列服务器,支持不同的冷板式液冷方案,从CPU液冷到内存条散热+VR液冷;联想升级海神温水水冷系统,可实现服务器全水冷无风扇设计;新华三也发布全栈液冷解决方案,包含G6系列服务器、核心路由器、接入交换机;中科曙光子公司曙光数创8月发布了“冷平衡”战略,是特别针对数据中心算力、成本、能耗三元平衡问题,推出的全栈液冷数据中心技术与全生命周期一站式服务;去年年底华为推出全场景液冷“天成”多样性算力平台。今年,华为昇腾再推集成天成液冷的算力集群,可以支持万卡规模。

“在‘东数西算’‘双碳’大背景下,不断提升的功率密度和PUE(能效指标,越接近1越优)设计要求已成为行业面临的主要问题,液冷技术具有高密低碳等优势,已经成为应对数据中心散热压力和节能挑战的必由之路。”中兴通讯数据中心产品线规划总工翁建刚表示。

而就在去年,面对液冷,当上游设备厂商活跃时,中游的数据中心还顾虑重重,保持观望。但现在,像企商在线这样的中游企业也已经积极规划液冷设施,足见液冷已经成为行业共识。

企商在线IDC能力中心售前经理徐涛对光锥智能表示,公司已经在接管客户的一些AI业务,AI服务器的功耗是通用服务器功耗的十倍左右,风冷的局限性日渐明显,必须尝试液冷。

服务器厂商的积极布局,很大程度上来源于客户的需求逐渐明朗。

数据中心占有半壁江山的三大电信运营商在6月亲自下场,联合发布《白皮书》,提出“三年景愿”:即2023年开展液冷技术验证;2024年开展规模测试,新建数据中心项目10%规模试点应用液冷技术,推进产业生态成熟;2025年及以后开展规模应用,50%以上数据中心项目应用液冷技术。

“现在液冷基本上所有内容已经通过验证,进入一个规模扩张的阶段。”近期,工信部直属研究机构赛迪顾问的液冷领域分析师袁钰明确当前液冷所处阶段。

其实,液冷并不是新技术,其早已被应用于工业、航空领域。一说,阿波罗登月计划,就将液冷用于宇航员体温控制。在数据中心领域,液冷在上世纪60-90年代就崭露头角。但后来随着计算技术迭代功耗下跌,又被“冷落”。

从被“冷落”到“翻红”,液冷经历了什么,又将面对什么新挑战?

“暴力计算”亟需液冷降温

风冷是过去很长时间内,数据中心的主流温控方案,以空气为冷却媒介。液冷和风冷最大的区别,就是冷却媒介不同,“液冷”利用矿物油、氟化液等绝缘低沸点的冷却液作为冷媒,通过热交换将服务器的热量排出。完全绝缘、无腐蚀性的冷液,单位体积价格堪比茅台、五粮液。

液冷之所以被数据中心重新重视,根本原因是,后摩尔定律时代,芯片、服务器的功耗再呈上升趋势,随之产生更高的温度。

“那一次更让我深刻理解了温度对于服务器的影响。”有着十余年IDC售前经验的徐涛回忆从业过程中遇到的设备散热对服务器运行影响的问题,“客户规划的服务器功耗100多瓦,实际装的300多瓦,而且单机柜实际密度也比规划高,结果测出服务器温度到了六七十度,直接导致故障率是原来的10倍。”

针对数据中心高温问题,头部设备厂商更加大力推进液冷,目的大多集中在降低PUE,具体则从技术、方案等不同角度着力。

据媒体此前报道,中兴通讯建设的全液冷数据中心项目中,液冷散热的比例已经达到了70%。公司今年1月发布的G5系列服务器新品支持液冷散热技术,采用冷板式液冷散热,可实现数据中心PUE降至1.1,冷板&管路高可靠连接,全管路智能监控,漏液秒级告警。

联想则从液体温度着眼,首创海神温水全水冷技术。不同于常见的45-50摄氏度的技术,联想通过数据分析,认为进水50摄氏度、出水60摄氏度,可以获得最佳能耗比。海神温水全水冷技术实现了服务器全水冷无风扇设计,支持多类型GPU,散热效率达98%,甚至可以支持数据中心PUE降至1.1以下。

后摩尔定律时代,芯片的功率越来越高。尤其是大模型带来的“暴力计算”,例如,用于训练ChatGPT的英伟达 A100服务器的最大功耗已达6.5kW。而此前,传统的服务器功率400W左右已经算很高。

与此同时,AI产业快速发展,致使算力需求飙升。但受制于建设面积等客观因素,增加单机柜功率密度,成为调和快速的算力需求与有限数据中心承载力的共识方案。

服务器功耗越来越大,温度越来越高,所占空间越来越小。可以想象一下,一堆爱出汗的人,挤在狭小的屋子。

越来越高的温度对于服务器来说是非常大的隐患。

“芯片温度每升高10度,故障率就会翻倍,寿命也会减半。”徐涛说,所以散热已经是当前智算面临的最大问题之一。

但是,风冷已经被逼近甚至突破极限。每机柜15-25kW的功率密度是“未使用背板换热器等其他制冷设备”的风冷解决方案上限,仅勉强扛得住2-4个NVIDIA A100。

华为集群计算业务副总裁王振华表示,当芯片的典型功耗超过300W,每平方厘米的功耗超过90W的时候,风冷难以为继。而当前业界的主流芯片产品,功耗已经超过这个阈值。

“机柜密度不断提升,会带来整个制冷系统的造价成本提升。”曙光数创总裁何继盛表示,“甚至单机柜的功率密度达到一定程度,继续增加投资都不能满足数据中心的散热需求。”

另一方面,随着“碳达峰”、“碳中和”等战略落地,国家到地方对于PUE明确的“红线”,成为刺激液冷产业加速更为直接的原因。

4月,多部门发文,2023年6月起数据中心PUE不高于1.4,2025年起数据中心不高于1.3,当前行业平均PUE为1.5。更多的地方政策,则对数据中心提出了更加严格的要求。

相比之下,液冷的单位体积的比热容足有风冷的1000倍以上。(比热容越大的物质,温度每上升1摄氏度,所吸收的热量越多);液冷PUE普遍在1.1,甚至不断逼近1.0。

新华三已经设计了PUE<1.1更节能的数据中心,并获得了金融业数据中心UptimeT4认证。2022年5月,新华三推出UniServer R4900LC G5液冷服务器,支持NVIDIA A100 80GB PCIe液冷式GPU,相比于传统风冷机型,整机功耗可降低21.3%,全年PUE均值为1.042。

新华三集团液冷服务器产品经理何伟宇认为,随着产品的快速迭代,单机柜功率密度的持续演进,对于数据中心的散热系统提出了更高的要求,像北上广深等一线城市对于空间和散热的需求则更为严苛,普通风冷机房的制冷效率已经大大制约了新技术和高算力的演进,这在一定程度上也推动了液冷技术在数据中心的发展和普及。

液冷作为更有效解决数据中心高密度散热的新兴技术,已经成为了行业的共识和确定趋势。

“去年被业内称作是数据中心液冷元年,今年已经有越来越多的客户开始接受液冷方案,液冷在整个市场渗透率有望做到20%-30%。”宁畅总裁秦晓宁曾表示。

行业格局来看,海外液冷厂商具有先发优势,中国厂商后来居上实现突围。2015-2018年,中科曙光、华为、联想、阿里巴巴等一众国产厂商,先后实现了液冷服务器大规模商业应用项目的落地,实现弯道超车。

据《中国液冷数据中心发展白皮书》在2020年对于中国液冷数据中心厂商竞争力的研究,基于产品营收、市占率、客户反馈等指标,中科曙光为市场的绝对领导者,华为、阿里巴巴、联想紧随其后。

液冷的“成本账”

“三年前接到调研任务时,液冷还是’黑科技’,但现在已经进入了应用拓展阶段。”袁钰近期表示。

液冷“杀回”数据中心,进入拓展期,重要原因之一就是能算得来成本账。

液冷技术按照液体与发热器件的接触方式,可分为“间接接触型”和“直接接触型”两大类。冷板式液冷是最典型的间接接触型液冷技术;直接接触型主要有浸没式液冷和喷淋式液冷两种技术,浸没式液冷最为典型。通俗讲,对应就像人降温措施,冷敷、冷水淋浴或直接泡冷水澡一样。

浸没式和喷淋式液冷技术冷却效果更好,但由于冷板式的服务器芯片等发热器件不用直接接触液体,所以冷板式液冷对现有服务器芯片组件及附属部件改动量较小,可操作性更强、目前成熟度最高、应用最广泛,最重要的是成本更低。

翁建刚表示,测算来看,功率密度到达一定程度,液冷方案相比风冷已具备经济优势,3年左右能够实现投资收益平衡。不仅如此,随着液冷市场规模的扩大,相关基础设施成本也将进一步降低。

曙光数创副总裁张鹏近期也表示,服务器把散热器去掉,换上冷板,可能成本会有一些上升,但不需要冷机、空调,以及工程上的一些东西,初投资的时候已经省钱。

据招商研报,数据中心TCO(总成本),在不计算服务器折旧与服务器运营成本的情况下,当单机柜功率>15kW时,冷板式液冷TCO优势明显,当单机柜功率>30kW时,浸没式液冷开始出现优势。

此外,无论任何一种液冷路线,相较风冷,都已经在节省电和空间上具备成本优势。

根据开源证券研究所的统计结果,一个数据中心的能耗分布中,散热系统的占比高达40%。也就是说,数据中心每耗费一度电,只有一半用在了“计算”上,其他的则浪费在了散热、照明等方面。计算和散热几乎陷入了一场零和博弈,计算量越大散热消耗的电量越大。

华为昇腾AI计算集群也已经采用液冷散热。液冷方案本就比传统风冷方案更省电,昇腾采用了直接把冷夜注入每块芯片的精准供给方式,相比浸没式,可以降低日常运维的成本。

“精准供给取决于芯片板卡上都设置传感器、电控阀门,再加上中央控制,可以实现为不同芯片在不同的负荷下,提供精细化冷量输送。”北京昇腾人工智能生态创新中心CTO杨光向光锥智能介绍。

阿里云技术专家王鹏曾表示,如果全国的数据中心都采用浸没液冷技术,预计到2025年,一年可节省上千亿度电。

液冷散热效果强大,数据中心不用采用疏密手段。尤其是对于一二线的数据中心来说,液冷的空间成本更突出。

徐涛透露,他们有数据中心,因为接了一些AI业务,原来规划246个机柜,但现在GPU服务器增多,为了避免数据中心温度过高,只能进行疏密,所以一下就砍到了六七十个机柜。但石景山区的数据中心上了液冷设备空间利用率就会大幅提升,同时可以降低数据中心的PUE,降低能耗水平。

“二三线城市的建筑成本为数千元,北京的建筑成本为数万元,空间成本可以说非常高。”徐涛表示,虽然目前液冷单千瓦成本较风冷高,但考虑到空间利用率以及节省的电费,液冷制冷方案,还是值得投入的。

规模扩张还需跨越“百标大战”

虽然已经初步跨过降本这道栏,接下来液冷扩张却还要面临新的问题——“百标大战”。

以冷板式液冷为例,主要包括机柜与服务器,交付方式分为两种,一体化交付与解耦交付。解耦交付是液冷机柜与液冷服务器之间遵循用户统一制定的接口设计规范,机柜与服务器解耦,可由不同厂商交付;一体化交付是液冷整机柜(包括机柜和服务器)由厂商自定标准进行集成设计开发,整机柜由同一厂商一体化交付。

液冷产业链尚不成熟,当前业内尚无服务器统一接口标准,各厂商产品及配件设计标准各异。两种交付背后充满了各方博弈。

对于厂商来说,一体化解决方案的成本一定是更低,开发和交付周期大幅缩短。更重要的是,为了形成客户壁垒,厂商也多选择以产品一体化的交付模式为主。这导致各厂商的产品之间兼容性差。

不过,数据中心用户会对一体化交付充满顾虑。

一方面,用户会有迁移需求,比如达成新战略合作,或者原本就是临时租用机柜,以及后续机柜需要扩容等。如果液冷的设施绑定,迁移成本会增加。另一方面,设备与设施绑定,可能会让用户失去议价权。一次性批量采购,设备更新速度快,大概率只能保持固定供应商,如果选择其他产品,还需要对基础设施进行改造。

因此,考虑到用户需求,数据中心不愿意接受一体化方案,就会要求设备厂商解耦。毕竟设备厂商目前还处于充分竞争阶段,厂商也就不得不解耦交付。

当前超聚变、华为、浪潮、曙光、新华三等主要液冷服务器厂商皆拥有自己的一体化交付方案与解耦交付方案。

不过,解耦是能解,解耦也可带来供应商多样化,有助于控制成本,能够让各供应商发挥自身优势。但是解耦要求甲方协调各个供应商做好对接,过程就会非常耗时耗力。“每一个环节都得多方密切沟通,也得紧盯落实,一旦出现一点差错,就导致系统性问题。”徐涛说,相对于一体化交付,没有行业标准,解耦就会变成项目制。

各方拉锯中,首当其冲的就会是设备厂商。

曙光数创是国内最早布局液冷的企业,液冷基础设施市占率接近6成。但曙光数创今年年中报显示,冷板液冷数据中心基础设施产品,营收收入同比减少42.55%,营收成本同比减少33.63%,毛利率同比减少11.14%。年报中解释,收入波动的原因是,公司产品是非标准产品,但目前数据中心建设标准各异。

继而,下游会因为种种问题,犹豫尝试液冷方案,导致液冷推广遇阻。

曙光数创也呼吁行业统一标准。张鹏表示,首先如果行业标准对于供水的温度、温差、压力等能够统一,对液冷成本进一步下降是非常有意义的,也是他们在实际落地中遇到的问题。

不过,行业的标准形成并不会一蹴而就。而徐涛认为,各方博弈的滚动过程,行业的发展难免会有波折很有可能“进三步退一步”。当然,这也是新兴技术必然经历的过程。

华为昇腾已经宣布将会发布业界首个万卡级的集群,也将配套液冷方案,使用天成平台采用的“液冷+电源+网络”三条总线的设计思路。

企商在线石景山公共算力中心预计明年8月就交付,虽然还没有行业标准落实,企商在线则选择部分高功耗算力采用液冷方式一体化建设,然后直接租算力给客户。

徐涛表示,后续随着行业发展一定会有新的方案,考虑到芯片功耗越来越高,风冷能力有限,同时“碳达峰”“碳中和”的要求,液冷作为确定趋势,当前先做起来比较重要。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年10月16日 14:27
下一篇 2023年10月16日

相关推荐

  • 抖音不再陪小杨哥“疯狂”

    就在抖音电商峰会一周前,快手一哥辛巴炮轰小杨哥,指责其在质检、售后、赔偿态度等方面存在问题,模仿辛选的商业模式,以及小杨哥此前销售的一些产品如茅台酒、梅菜扣肉等存在质量问题,如果小杨哥不处理,他将用一亿元替小杨哥进行赔付。
    在2022年9月的抖音电商作者峰会上,刚转型直播带货一年的小杨哥,第一次获得了抖音电商的卓越个人奖。
    在短视频时代,抖音成就了小杨哥,正如小杨哥感谢抖音那般,“它具有很强的开放性和包容性,它给每一个人都提供平等展示自我的机会”,小杨哥也为抖音带来了很多用户,高峰时期小杨哥抖音粉丝量超过了1.2亿。

    2024年9月20日
  • 科隆新材IPO:业绩波动、内控缺位或成上市“拦路虎”

    上半年业绩表现不佳
    科隆新材的主营业务是液压组合密封件和液压软管等橡塑新材料产品的研发、生产和销售,以及煤矿辅助运输设备的整车设计、生产、销售和维修,同时也为风电、军工、高铁等行业客户提供定制化橡塑新材料产品。
    同时,如果未来煤炭主体能源地位被快速替代,下游客户新机装备需求减少,科隆新材又未能拓展旧机维修业务,或是未能适应市场变化、新技术和新产品未能顺应市场发展趋势,那么科隆新材就存在橡塑新材料产品经营业绩下滑的风险,甚至可能会对公司整体经营业绩造成不利影响。

    商业密码 2024年9月20日
  • 淘宝倒逼新风向:一场电商减负运动

    但售后服务同时也是电商变革最复杂的一环,开店、佣金、流量推广都只是商家与平台间的服务交易,售后却涉及平台导向、商家成本和消费者体验三方,且受社会消费情绪变化、平台生态优劣的直接制约,是各方利益最难平衡的地方。
    我们也发现,在这个过程中,电商平台的自我角色定位也在调整,从推出「仅退款」的游戏规则制定者、大家长,逐渐过渡到生态系统的设计者、平衡商家和消费者利益的服务商。

    商业密码 2024年9月20日
  • 博浪AI时代,阿里、华为“硬碰硬”

    根据申万一级行业分类,阿里巴巴概念板块156家上市公司分布于22个行业,其中传媒、电子、商贸零售、通信、医药生物分别聚集了50、25、13、11、9只概念股。
    根据申万一级行业分类,华为概念板块896家上市公司分布于28个行业,其中,计算机、电子、机械设备、通信、电力设备分别聚集了220、193、92、65、61只概念股。

    商业密码 2024年9月20日
  • 员工挂“罪牌”戴纸托手铐引质疑,80后王云安创立的古茗又“翻车”了

    员工头挂“罪牌”手戴纸托手铐,古茗玩梗惨遭翻车
    近日,古茗员工头挂“罪牌”、手戴形似手铐纸托的视频,在社交平台上广泛传播,引发诸多网友热议。
    至于上海,王云安认为该市场毗邻浙江,因此会有一定的消费者基础,但是上海奶茶行业竞争激烈,外卖比例很高,相对来说门店的收益更难做好,“我们在进省会城市,以及大的一线城市的时候,我们一定是做好准备了再去的,比如上海的消费者到底要什么,我们进去应该怎么做才可以让更多的店做得更好,古茗能够给上海的消费者带来什么样的不同呢,这些是我们要去思考的。

    商业密码 2024年9月20日
  • 古井教父悲情收场

    1986年之后的十年里,古井的资产增长了18倍,利润增长了24倍,王效金也因此被称为“古井教父”,甚至是“中国酒界第一人”。
    这款拥有1800多年历史的安徽名酒也许永远也不会再与茅台并肩了,但如今也可以称得上再度振兴,尤其是这一切还建立在王效金的固执和自大,当年差一点毁了古井贡酒的基础上。
    他甚至曾经在公开场合说过,王效金就是古井,古井就是王效金,“效忠”古井就是效忠他。

    2024年9月20日
  • 直言AI不如原创,吴克群凭什么?

    吴克群的原创音乐哲学
    来到《音乐缘计划》,吴克群分外真诚。
    如此来看,吴克群选择参与《音乐缘计划》这一原创音乐综艺,正是源自于他与原创音乐人之间的惺惺相惜。
    在分享创作心得、探讨音乐理念时,吴克群不再简单是一个综艺节目的嘉宾,他也是作为一名原创音乐人出现在舞台上,让一切热爱与纯粹都具象化。
    于是,面对当下音乐生态的顽疾,新生代音乐人的困境,吴克群会在稳定的音乐事业之外,积极参与各种原创音乐活动。

    商业密码 2024年9月20日
  • 专门“收割”妈妈们的特百惠,被时代抛弃了

    02特百惠被时代抛弃了
    《新品略财经》记得三四年前,在深圳龙华区某购物中心还开了一家特百惠的店,也曾在店里买过东西,当时的印象是特百惠的产品卖得还不错。
    在《新品略财经》看来,特百惠既是时代的产物,也是被时代抛弃的产物,这与消费环境、消费需求、市场竞争,乃至是与特百惠的传统商业模式等各方面密切相关。
    从产品层面来说,特百惠是化学科技运用到日用物品的代表案例,在特百惠诞生的年代,家庭有着食物保鲜难的痛点,特别是在冰箱不普及的年代,特百惠犹如“刚需”般存在。

    商业密码 2024年9月20日
  • 县城消费的另一面:喝奶茶的少了,钓鱼的多了

    图源:作者拍摄

    图源:作者拍摄
    刘子涵继续说道,现在同学之所以不愿意喝新茶饮,还有一部分原因是,学生们对新茶饮的口感愈发失去新鲜感。

    图源:作者拍摄
    但并不是所有县城零食折扣店都这么火爆,中秋节假日当晚当地赵一鸣零食折扣店偌大的门店看不到太多顾客,收银台前也仅有几个顾客在排队结算。

    图源:受访者提供

    有人为钓鱼投入千元,有人干起代购
    和新茶饮相对冷清、零食折扣店门店客流分化不同的是,部分业态在县城仍迎来火爆。

    2024年9月19日
  • 闪回科技二度冲刺港股,深陷盈利困境,雷军看走眼了?

    在回收生意的上游,闪回科技通过闪回收从消费电子厂商、零售商、运营商以及C端消费者处获取二手手机供给。
    在下游销售端,闪回科技以“闪回有品”面向B端商户和消费者进行二手机和新机的销售,公司接近90%营收由闪回有品贡献。”

    B端渠道的手机厂商是闪回科技高增长最大的助力,但与之相伴的是,面对强势的手机大厂,闪回科技没有议价权,还需要向手机厂商支付高昂的保证金和促销服务费。

    2024年9月19日