“反英伟达联盟”成立,一切都怪英伟达

InfiniBand网络由交换机和路由器组成,数据包使用串行方式发送,可以同时发送多个数据通道(图源:TechTarget)

这三者的结合,使得英伟达能够提供端到端的高速数据通路,从GPU到CPU,再到整个网络基础设施,这种垂直整合能力极大地优化了数据处理流程,不仅提升了用户在人工智能、科学模拟、数据分析等领域的计算能力,还极大地增强了英伟达在高性能计算市场的竞争力,确立了其作为行业标准制定者的角色,进一步扩大了其在技术前沿的垄断地位。

看不下去英伟达的垄断,科技巨头们联合出手了。

据科技媒体TechCrunch最新消息,英特尔、谷歌、微软、Meta、AMD、惠普、博通、思科联合成立了一个新的行业组织——UALink促进会(the Ultra Accelerator Link Promoter Group,超级加速器连接促进会),该组织正在提议制定一项新的行业标准,应用于数据中心里AI芯片之间的互联。

提议标准的第一个版本UALink 1.0,将通过单个计算“Pod(舱,服务器中的一个或者多个机架)”连接多达1024个AI芯片(仅限GPU)。据UALink促进会称,UALink 1.0基于包括AMD的Infinity Fabric在内的“开放标准”,将允许在连接到AI芯片的内存之间进行直接加载和存储,与现有互连规范相比,可以提高速度并降低数据传输延迟。

同时,该组织表示,将在今年第三季度成立“UALink联盟”,以监督UALink规范未来的发展;UALink 1.0将在同一时间向加入该联盟的公司提供,带宽更高的更新规范UALink 1.1则将于今年第四季度推出


一切都怪英伟达

UALink的名单中,没有英伟达。

这或许和英伟达长期垄断数据中心市场的“霸权”有关——英伟达目前是世界上最大的AI数据中心制造商,约占全球80%-95%的市场份额。凭借着其专有的互联技术NVLink、NVLink Switch(NVSwitch)和Infiniband,英伟达实现了AI芯片和数据中心之间的高速数据传输:

  • NVLink是一种专为GPU与CPU之间高速数据传输设计的互连技术,相较于传统的PCIe接口,它提供了更宽的带宽和更低的延迟,极大提升了GPU密集型应用如深度学习、科学模拟和大数据分析的性能;

第五代NVLink极大地提高了大型多GPU系统的可扩展性,单个NVIDIA Blackwell Tensor Core GPU支持多达18个NVLink 100 GB/s连接,总带宽为1.8TB/s,比上一代带宽高2倍,比PCIe Gen5带宽高14倍以上(图源:NVIDIA)

  • NVSwitch是英伟达开发的一种高速交换机技术,它扩展了NVLink的概念,可以将多个GPU和CPU节点在更大范围内连接起来,形成更为复杂的互连网络。NVSwitch拥有多个NVLink端口,能够在一个系统内实现任意两个GPU之间的直接通信,这对于构建大规模GPU加速的超级计算机和数据中心架构尤为重要;

NVSwitch可在一台NVL72中实现130TB/s的GPU带宽,以实现大型模型并行;NVL72可以支持的GPU数量是单个八GPU系统的9倍(图源:NVIDIA)

  • 与此同时,英伟达通过收购Mellanox Technologies,将高速网络解决方案InfiniBand纳入麾下,进一步巩固了其在数据中心生态的影响力。InfiniBand以其极高的数据传输速度和低延迟特性,成为高性能计算集群和数据中心内部通信的优选方案,尤其适合大规模并行计算和存储架构。

InfiniBand网络由交换机和路由器组成,数据包使用串行方式发送,可以同时发送多个数据通道(图源:TechTarget)

这三者的结合,使得英伟达能够提供端到端的高速数据通路,从GPU到CPU,再到整个网络基础设施,这种垂直整合能力极大地优化了数据处理流程,不仅提升了用户在人工智能、科学模拟、数据分析等领域的计算能力,还极大地增强了英伟达在高性能计算市场的竞争力,确立了其作为行业标准制定者的角色,进一步扩大了其在技术前沿的垄断地位。

英伟达最新财报(2025财年第一财季)显示,英伟达第一季度总营收260亿美元(创历史新高);其中,数据中心业务贡献了英伟达的绝大部分营收,收入达226亿美元,同比增长427%,环比增长23%。如果英伟达继续保持目前增长势头,或许将在今年某个时候超越苹果成为全球第二大市值的公司。

在披露财报的同时,英伟达CFO Colette Kress还表示,“大型云服务提供商大约占据数据中心收入的45%左右”。钱都被英伟达赚了,科技巨头们难免不高兴,因此组团成立UALink定义新的行业标准,试图在英伟达的“垄断”体系下突围。而英伟达不支持基于竞争对手技术的规范也无可厚非。

第二次围攻

UALink的成立,是科技巨头们对英伟达的“第二次围攻”。

早在2023年7月,Linux基金会就联合博通、思科等多家公司成立了一个“超级以太网联盟(Ultra Ethernet Consortium)”,通过使用针对AI和HPC工作负载优化的新拥塞控制方法(如晶片堆栈和硅光技术),以实现比InfiniBand或RoCE网络更高效、更具可扩展性的互联网络,从而打破Inifiband的垄断。

而2023年12月,UALink促进会就有了初步的苗头。当时AMD和博通发表了一个联合声明,表示博通未来的PCI-Express交换机将支持xGMI和Infinity Fabric协议,使用NUMA架构,用于AMD的Instinct GPU和CPU之间的相互连接。这一最新交换机被命名为“Atlas 4”,遵循PCI-Express 7.0规范,将于2025年上市。

但PCI-Express不是UALink唯一的互联,xGMI也不是唯一的协议。AMD为UALink贡献了范围更广的Infinity Fabric共享内存协议,而所有其他参与者都同意使用Infinity Fabric作为数据中心互连的标准协议。英特尔高级副总裁兼网络和边缘事业部总经理Sachin Katti表示,UALink促进会正在考虑使用以太网第1层传输层,并在其上采用Infinity Fabric,以便将GPU内存粘合到类似于CPU上的NUMA的巨大共享空间中。

很少有人想过将多个不同供应商的GPU连接到一个机箱内,或者是连接到一个Pod(舱)内。但UALink就在试图这么做:

UALink GPU和加速舱(图源:The Next Platform)

使用以太网将Pod连接到更大的集群(图源:The Next Platform)

使用UALink,可以将一个带有AMD GPU的Pod,一个带有Intel GPU的Pod,和另一个带有若干AI芯片的其他品牌供应商的舱连接在一起。就像Meta和微软发布的开放加速器模块(OAM)规范允许系统板上加速器插槽的通用性一样,UALink也在互连层面上实现了服务器设计的通用性。

据介绍,Ultra Ethernet仍将用于扩展到更多节点,博通可能会在800Gbps的Thor产品中推出一款早期的Ultra Ethernet NIC,但仅根据规范标准化的程度,可能还需要一代才能获得完整的UEC支持。

对于AMD和英特尔等公司来说,UALink为其提供了一条复制NVLink和NVSwitch、并与其他公司共享开发成果的途径。此外,UALink也让博通这样的公司制造UALink交换机来帮助其他公司扩大规模。

“行业需要一种能够快速推进的开放标准,这种开放标准允许多家公司为整个生态系统增加价值。”在外媒TechCrunch的采访中,AMD数据中心解决方案总经理Forrest Norrod表示,“这种标准需要允许创新不受任何一家公司的束缚,快速推进。”


微软、Meta、谷歌或成最大受益者

UALink的最大受益者可能是微软、谷歌以及Meta,它们总计花费了数十亿美元购买英伟达的GPU和服务器来训练其大模型,因此他们迫切地想要摆脱对于英伟达硬件的依赖。

比如谷歌于2020年就在自家的数据中心上,部署了当时最强的AI芯片“TPU v4”,去年在Cloud Next 2023大会上推出了新款自研AI芯片TPU v5e,并推出了搭配英伟达(NVIDIA)H100 GPU的“A3超级计算机”GA(通用版);今年的Cloud Next 2024上,谷歌又宣布推出基于Arm架构的CPU Axion。其性能比通用Arm芯片高30%,比英特尔生产的当前一代x86芯片高50%;

微软于去年11月推出了Azure Maia AI芯片和Azure Cobalt CPU,Maia是为满足微软服务器的特定性能要求而定制的,可以显著减少能耗;Cobalt CPU则基于Arm架构构建,以其能效和性能而闻名;此外,微软和OpenAI也计划投入1000亿美元建造超级计算机用于训练大模型,该超级计算机将配备未来版本的Cobalt和Maia芯片,而UALink恰好可以将它们连接起来;

而Meta则在2021年和2022年,分别推出了模型训练平台ZionEX和Grand Teton,又在今年3月宣布设计了两个新的AI计算集群,每个集群包含24576个GPU。这些集群基于Meta的Grand Teton硬件平台,其中一个集群目前被Meta用于训练其下一代Llama 3模型。Meta还致力于PyTorch框架实现,试图用并行化算法,将初始化时间从“数小时缩短到数分钟”。

在众多科技巨头的努力下,一个可以与英伟达分庭抗礼的新的互联行业标准,或许离我们不远了。

参考资料:《Tech giants form an industry group to help develop next-gen AI chip components》,TechCrunch

本文来自微信公众号:甲子光年 (ID:jazzyear),作者:王艺,编辑:赵健‍‍

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年5月31日
Next 2024年5月31日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日