芯片巨头组团,向英伟达NVLink开战

其中包括其片上和封装互连、用于服务器或pod中GPU到GPU通信的NVLink、用于扩展pod之外的Infiniband以及用于连接到更广泛基础设施的以太网。Link或UALink,一项旨在取代Nvidia的NVLink协议和NVLink。Link联盟的核心于去年12月就已经建立,当时CPU和GPU制造商AMD和PCI-Express交换机制造商博通表示,博通未来的PCI-Express交换机将支持xGMI和Infinity。

本文来自微信公众号:半导体行业观察 (ID:icbank),作者:编辑部

据最新消息披露,包括AMD、博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise,HPE)、英特尔(Intel)、Meta和微软(Microsoft)在内的八家公司宣告,他们已经为人工智能数据中心的网络制定了新的互联技术UALink(Ultra Accelerator Link)。通过为人工智能加速器之间的通信建立一个开放标准,以打破市场领导者Nvidia的垄断。

众所周知,英伟达是人工智能芯片市场最大的参与者,他们在GPU上拥有了绝对领先的份额。但其实除此以外,英伟达还拥有一系列技术,可用于在多个GPU和系统上扩展工作负载。其中包括其片上和封装互连、用于服务器或pod中GPU到GPU通信的NVLink、用于扩展pod之外的Infiniband以及用于连接到更广泛基础设施的以太网。

现在,该行业的其他公司正试图用开放标准进行反击,以争夺这些细分市场。去年,我们看到了Ultra Ethernet,它使用增强型以太网旨在取代Nvidia的InfiniBand高性能互连,后者已迅速成为连接GPU加速节点的事实标准,并且获得了丰厚的利润。

今年,我们将获得Ultra Accelerator Link或UALink,一项旨在取代Nvidia的NVLink协议和NVLink Switch(有时称为NVSwitch)内存结构新标准。在具体介绍UALink之前,我们先对Nvlink进行介绍。

英伟达的隐形护城河

过去,我们看到了很多有关英伟达GPU和CUDA护城河的介绍。诚然,经过多年的投入,他们已经建立起了难以逾越的优势。但除此以外,如上所述,英伟达还有很多隐形护城河,NVLink就是其中的一个,一个为GPU到GPU互联提供高速连接的技术。

在摩尔定律逐渐失效,但对算力要求越来越高的当下,这种互联显得尤为必要。

按照英伟达在官方网站中表示,NVLink是全球首创的高速GPU互连技术,为多GPU系统提供另一种选择,与传统的PCI-E解决方案相比,速度方面拥有显著提升。使用NVLink连接两张NVIDIA GPU,即可弹性调整记忆体与效能,满足专业视觉运算最高工作负载的需求。

相关资料显示,NVLink最初是一种将Nvidia GPU卡上的内存组合在一起的方法,最终Nvidia Research实现了一个交换机来驱动这些端口,允许Nvidia以杠铃拓扑(barbell topology)连接两个以上的GPU,或以十字交叉方形拓扑(crisscrossed square topology)连接四个GPU,这种拓扑几十年来通常用于创建基于CPU的双插槽和四插槽服务器。

几年前,AI系统需要八个或十六个GPU共享内存,以简化编程,并使这些GPU能够以内存速度(而不是网络速度)访问数据集。因此,实验室中的NVSwitch于2018年在基于“Volta”V100 GPU加速器的DGX-2平台上迅速商业化。

目前,NVLink可在GPU之间以每秒1.8 TB的速度传输数据。此外,还有一个NVLink机架级交换机,能够在无阻塞计算结构中支持多达576个完全连接的GPU。通过NVLink连接的GPU称为“pod”,表示它们有自己的数据和计算域。

其实除了Nvlink以外,还有两种连接GPU的方法,分别是PCI总线和Server-to-Server互联。据了解,标准服务器通常可以在PCI总线上支持4-8个GPU。通过使用GigaIO FabreX内存结构等技术,可以将这个数字增加到32个。

除此以外,以太网或InfiniBand可以连接包含GPU的服务器。这种连接级别通常称为横向扩展,其中较快的多GPU域通过较慢的网络连接以形成大型计算网络。

其实自从比特开始在机器之间移动以来,以太网一直是计算机网络的主力。最近,通过引入超级以太网联盟,该规范已被推动以提供高性能。事实上,英特尔已经在以太网上插上了互连旗帜,因为英特尔Gaudi-2 AI处理器在芯片上拥有24个100千兆以太网连接。

不过,Nvidia没有加入超级以太网联盟,因为他们在2019年3月收购Mellanox后,基本上独占了高性能InfiniBand互连市场。超级以太网联盟旨在成为其他所有人的“InfiniBand”。值得一提的是,英特尔曾经高举InfiniBand大旗。

因此在这种情况下,对于其他人来说,除了用于连接MI300A APU的AMD Infinity Fabric之外,没有其他选择。与InfiniBand/以太网的情况类似,需要某种“超级”竞争对手联盟来填补非Nvidia的“pod空缺”。而这正是UALink推出的重要原因。

什么是UALink?

超级加速器链(Ultra Accelerator Link,UALink)同样是一种可提高新一代AI/ML集群性能的高速加速器互连技术。八家发起厂商(和超级以太网联盟一样,我们也没有在UAlink联盟中看到英伟达的身影)也成立了一个开放行业标准机构来制定相关技术规范,以促进新使用模式所需的突破性性能,同时支持数据中心加速器用开放生态系统的发展。

在他们看来,发起这个标准很有必要。因为随着AI计算需求的增长,拥有稳健、低延迟且可高效纵向扩展的网络,从而轻松将计算资源添加到单个实例中至关重要。而针对纵向扩展功能制定开放的行业标准规范,有助于为AI工作负载创建开放的高性能环境,从而提供尽可能高的性能。

正是由于这个原因,UALink和行业规范对于新一代AI数据中心用AI和机器学习、HPC和云应用程序的接口标准化及其实现至关重要。该工作组将制定相应的规范来界定AI计算容器组中加速器与交换机之间进行纵向扩展通信所需的高速低延迟互连。

从相关资料可以看到,Ultra Accelerator Link联盟的核心于去年12月就已经建立,当时CPU和GPU制造商AMD和PCI-Express交换机制造商博通表示,博通未来的PCI-Express交换机将支持xGMI和Infinity Fabric协议,用于将其Instinct GPU内存相互连接,以及使用CPU NUMA链接的加载/存储内存语义将其内存连接到CPU主机的内存。相关消息显示,这将是未来的“Atlas 4”交换机,它将遵循PCI-Express 7.0规范,并于2025年上市。博通数据中心解决方案集团副总裁兼总经理Jas Tremblay证实,这项工作仍在进行中,但不要妄下结论。换而言之,我们不要以为PCI-Express是唯一的UALink传输,也不要以为xGMI是唯一的协议。

AMD为UALink项目贡献了范围更广的Infinity Fabric共享内存协议以及功能更有限且特定于GPU的xGMI,而所有其他参与者都同意使用Infinity Fabric作为加速器互连的标准协议。英特尔高级副总裁兼网络和边缘事业部总经理Sachin Katti表示,由AMD、博通、思科系统、谷歌、惠普企业、英特尔、Meta Platforms和微软组成的Ultra Accelerator Link“推动者小组”正在考虑使用以太网第1层传输层,并在其上采用Infinity Fabric,以便将GPU内存粘合到类似于CPU上的NUMA的巨大共享空间中。

如下图所示,我们分享了如何使用以太网将Pod链接到更大的集群:

如thenextplatform所说,没人期望将来自多个供应商的GPU连接到一个机箱内,甚至可能是一个机架或多个机架中的一个Pod内。但UALink联盟成员确实相信,系统制造商将创建使用UALink的机器,并允许在客户构建其舱时将来自许多参与者的加速器放入这些机器中。您可以有一个带有AMD GPU的Pod,一个带有Intel GPU的Pod,另一个带有来自任意数量的其他参与者的自定义加速器Pod。它允许在互连级别实现服务器设计的通用性,就像Meta Platforms和Microsoft发布的开放加速器模块(OAM)规范允许系统板上加速器插槽的通用性一样。

总而言之,UALink的一大优势是让业内其他所有人都有机会与NVIDIA保持同步。NVIDIA现在有能力制造NVSwitch盒并将这些NVSwitch托盘放入NVIDIA DGX GB200 NVL72等产品中。

英特尔今年的AI加速器销售额达数亿美元,这可能意味着它只卖出几万台加速器。AMD今年将销售数十亿美元的MI300X,但这仍然远不及NVIDIA的AI规模。拥有UALink允许像Broadcom这样的公司制造UALink交换机来帮助其他公司扩大规模,然后在多家公司的加速器上使用这些交换机。

我们已经报道了Broadcom Atlas交换机计划与AMD Infinity Fabric AFL Scale Up竞争NVIDIA NVLink即将出现在PCIe Gen7中的Broadcom交换机上。我们在简报中被告知,这些可能会实现UALink的V1.0。当然,UALink V1.0规范尚未出台。

他们表示,1.0版的规范将允许在AI容器组中连接不超过1,024个加速器,支持在容器组中挂载到加速器(例如GPU)的内存之间进行直接加载和存储。UALink发起人工作组已经成立了UALink联盟,预计将在2024年第三季度正式成立。1.0版规范预计将于2024年第三季度推出,并向参加超级加速器链(UALink)联盟的公司开放。

CXL怎么办?

其实在过去几年,行业参与者已经承诺过在PCI-Express结构上运行的Compute Express Link(CXL)协议将提供同样的功能。例如CXLmem子集就已经提供了CPU和GPU之间的内存共享吗。

但在分析人士看来,PCI-Express和CXL是更广泛的传输和协议。

Katti指出,AI加速器模块的内存域比CPU集群的内存域大得多,我们知道CPU集群的扩展范围从2个到4个,有时到8个,很少到16个计算引擎。许多人认为,AI加速器的GPU模块可扩展到数百个计算引擎,并且需要扩展到数千个。更重要的是,与CPU NUMA集群不同,GPU集群(尤其是运行AI工作负载的集群)对内存延迟的容忍度更高。

为此The Next Platform表示,我们不要指望看到UALinks将CPU捆绑在一起,但没有理由相信未来的CXL链接最终不会成为CPU共享内存的标准方式——甚至可能跨越不同的架构。

这实际上是为了打破NVLink在互连结构内存语义方面的垄断。无论Nvidia如何使用NVLink和NVSwitch,它的几家竞争对手都需要为潜在客户提供可靠的替代方案——无论他们是销售GPU还是其他类型的加速器或整个系统——这些潜在客户肯定希望为AI服务器节点和机架式设备提供比Nvidia互连更开放、更便宜的替代方案。

“当我们审视整个数据中心对AI系统的需求时,有一点非常明显,那就是AI模型继续大规模增长,”AMD数据中心解决方案事业部总经理Forrest Norrod说道。“每个人都可以看到,这意味着对于最先进的模型,许多加速器需要协同工作以进行推理或训练。能够扩展这些加速器对于推动未来大规模系统的效率、性能和经济性至关重要。扩展有几个不同的方面,但Ultra Accelerator Link的所有支持者都非常强烈地感受到,行业需要一个可以快速推进的开放标准,一个允许多家公司为整个生态系统增加价值的开放标准。并且允许创新不受任何一家公司的束缚而快速进行。”

毫无疑问,AMD Forrest Norrod说的这家公司就是Nvidia,他们通过投资了InfiniBand,并创建了具有绝对超大网络带宽的NVSwitch来为GPU进行NUMA集群。当然,他们最初这样做的是因为PCI-Express交换机在总带宽方面仍然有限。

有趣的是,UALink 1.0规范将在今年第三季度完成,届时Ultra Accelerator Consortium也将加入进来,拥有知识产权并推动UALink标准的发展。今年第四季度,UALink 1.1更新将发布,这将进一步提高规模和性能。目前尚不清楚1.0和1.1 UALink规范将支持哪些传输,或者哪些将支持PCI-Express或以太网传输。

使用NVLink 4端口的NVSwitch 3结构理论上可以在共享内存pod中跨越多达256个GPU,但Nvidia的商业产品仅支持8个GPU。借助NVSwitch 4和NVLink 5端口,Nvidia理论上可以支持跨越多达576个GPU的pod,但实际上,商业支持仅在DGX B200 NVL72系统中最多72个GPU的机器上提供。

如今,许多公司都在尝试采用标准PCIe交换机并构建基于PCIe的结构以扩展到更多加速器。业内大公司似乎将此视为权宜之计。相反,NVIDIA的NVLink更像是业内扩展的黄金标准。

现在,UAlink团队正准备发布专有NVLink的公开竞争对手。

所有这些都需要时间。记者在简报会上问这是否是一个2026年左右的实施目标。2024年还太早,即使它被融入到产品中,目前也不太可能成为2025年初的产品。如果你看看CXL或UCIe,这些标准需要很长时间才能最终成为产品。2026年将是一个快速实施的时间。

对于AMD和英特尔等公司来说,这提供了一条复制NVLink和NVSwitch功能并与其他公司共享开发成果的途径。像博通这样的公司很可能是最大的赢家,因为它定位为非NVIDIA系统的连接提供商,无论是用于纵向扩展还是横向扩展。无论是AMD还是英特尔获胜,博通都在销售连接。对于超大规模企业来说,无论谁制造端点,投资标准化结构的能力都非常有意义。

顺便说一句,在2019-2020年期间,行业考虑将CXL in-box和Gen-Z作为扩展解决方案。许多当年展示Gen-Z的人现在都在AMD工作,就像AMD多年来一直在组建一支团队,他们看到并一直在努力解决扩展挑战。

希望我们能够尽快看到UALink投入使用。对啦,多说一句,貌似没有看到Marvell的身影?

参考链接

s://www.businesswire.com/news/home/20240530795219/zh-CNs://www.nextplatform.com/2024/05/30/key-hyperscalers-and-chip-makers-gang-up-on-nvidias-nvswitch-interconnect/s://www.servethehome.com/ualink-will-be-the-nvlink-standard-backed-by-amd-intel-broadcom-cisco-and-more/

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年5月31日
下一篇 2024年5月31日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日