2024年,AI“芯事”迎来新节点。
近日,英特尔发布了新一代AI加速器Gaudi 3。英特尔声称,新款Gaudi 3芯片与英伟达H100芯片相比,推理能力平均提高50%,能效平均提高40%,运行人工智能模型的速度是H100的1.5倍。
Intel Gaudi 3白皮书信息显示,这款产品将与英伟达最新的H200大致相当,在某些领域甚至表现更好。
除了芯片本身的“较劲”,英特尔还计划主动开放生态,试图打破英伟达的高墙。此前,英特尔高管接受采访时曾表示,英特尔“开放”的人工智能堆栈是与竞争对手英伟达的一大区别。
在Gaudi 3发布的几天后,市场就有消息传出,英特尔的Gaudi 3已经准备好了提供给中国市场的版本,将于6月份推出。时代周报就此消息向英特尔核实,不过英特尔方面没有具体回应。
相比国外芯片厂商“狂卷”,国内芯片厂商也正积极破局。
时代周报记者近日从CITE 2024(第十二届中国电子信息博览会)了解到,目前我国芯片供应仍然相对紧张。虽然国内已有企业推出智能算力芯片,在电商智能搜索、智慧工业、智能驾驶等部分推理场景已开展应用落地,在大模型训练应用上尚处起步阶段。国内智能算力芯片综合性能较英伟达产品存在一定差距,但个别产品在自然语言、图像处理等算法上能力较强。
英特尔以“开放”突围
英特尔自2019年以来一直在制造Gaudi系列芯片,不过步伐始终比英伟达慢了两年。
2019年7月,英特尔推出的Gaudi 1加速器,在彼时规模还很小的AI市场中,对标英伟达2017年推出的Volta V100。随后,英特尔花20亿美金收购Habana Labs,并于2022年5月发布Gaudi 2。Gaudi 2采用7nm制程打造,英特尔宣称其工作负载量几乎是英伟达A100 80GB处理器的2倍,而A100 是英伟达在2020年发布的一款GPU平台。
英特尔近日推出的新一代Gaudi 3则采用了台积电(TSM.US)5nm工艺,对比上一代带来了4倍的BF16 AI计算能力提升,以及1.5倍的内存带宽提升。
据英特尔介绍,Gaudi 3对比H100推理能力平均提高50%,能效平均提高40%,运行人工智能模型的速度是H100的1.5倍。英特尔表示,这款产品将与英伟达最新的H200大致相当,在某些领域甚至表现更好。
尽管英特尔未透露Gaudi 3的定价信息,但相对于H100,英特尔表示Gaudi 3将提供更“有吸引力的价格”。该产品将于2024年第二季度面向OEM厂商出货。
英特尔此举被认为是为抢占AI芯片市场份额而硬刚英伟达,因为英伟达刚一个月前宣布了GPU新核弹B200和超级芯片GB200。
但大家似乎只看到英特尔在参数上的“野心”,而忽略了藏于背后的开放策略。
当天和Gaudi 3同时发布的,还有英特尔面向开放的、可扩展的AI系统的战略,以及联合Anyscale、Articul8、DataStax等多家企业宣布创建的开放平台。即使是Gaudi 3,英特尔也强调其“开放性”,Gaudi 3提供开放的、基于社区的软件和行业标准以太网网络,允许企业灵活地从单个节点扩展到拥有数千个节点的集群、超级集群和超大集群,支持大规模的推理、微调和训练。
过去十几年,基于x86架构的处理器在数据中心是绝对王者,而英特尔对X86架构有着绝对的控制。这种专有的处理器架构,最初由英特尔开发,用于早期的个人电脑(PC)。由于英特尔在PC市场的主导地位,X86架构成为了事实上的标准。英特尔一直保持对X86架构的控制,并且通过授权给其他公司生产和销售X86处理器来确保其生态系统的稳定和盈利。
近年来,随着市场发展和与其他处理器架构(如ARM、RISC-V)竞争加剧,英特尔已经开始采取更加开放和合作的策略。
从AI市场来看,目前英伟达在芯片市场占据着绝对优势,英特尔希望用产品撬走份额并不容易。富国银行统计显示,目前英伟达在数据中心AI市场拥有98%的市场份额,而AMD公司的市场份额仅有1.2%,英特尔则只有不到1%。而美国银行预计,未来Gaudi 3可能也仅将占据不到1%的AI加速器市场份额。
今年3月,英特尔全球渠道主管Trevor Vickers在接受CRN的独家采访时,谈到英特尔“开放”的人工智能堆栈是与竞争对手英伟达的一大区别,这也是让英特尔的CPU在快速增长的推理领域获得发展的机会。
“对我们来说,关键在于我们如何创建这些生态系统,使它们具有韧性、安全性、高性能并且是开放的,这是我们与合作伙伴能提供的非常重要的部分。”Trevor Vickers表示,英特尔希望拥有一个开放的AI堆栈,希望在将产品推向市场时秉持“一次编写,随处交付”的精神。
这种“一次编写,随处交付”指的是英特尔的oneAPI开放标准,该标准允许开发人员对不同类型的处理器使用单一的编程模型,无论是英特尔CPU、还是由英特尔或竞争对手制造的GPU,都与英伟达产品的专有性形成鲜明对比,目前英伟达的CUDA平台仅支持Nvidia设计的处理器。
或推出中国特供版?
英特尔与英伟达在AI领域的博弈正深入腹地,中国则是其AI芯片应用的“主战场”之一。
在英特尔发布Gaudi3几天后,市场上就流传出消息称,英特尔或于今年下半年推出两款专供中国市场的Gaudi 3 AI加速器芯片,只不过性能将大打折扣。记者就此向英特尔方面询问,但截至发稿并未得到具体回应。
去年7月,英特尔就发布了面向中国市场的Gaudi2。相比国际版Gaudi2,面向中国市场推出的加速卡在性能上差别不大,而集成以太网RDMA端口数量从24个端口减到21个,以符合美国芯片出口管制规定。
无独有偶,去年10月,英伟达也推出了三款基于其AI芯片H100的“降级版”芯片:H20、L20和L2,并计划在今年二季度量产。但据参考消息网,由于“中国特供版”AI芯片样品算力不足,相关公司已暗示英伟达,今年订购的英伟达芯片数量将远少于原计划。
近日,时代周报记者在CITE 2024上走访,从部分芯片代理商口中得知,目前他们手上销量较好的产品是英特尔和AMD的CPU,英伟达的产品只能卖中国特供版本。
“不过,也有不少人之前囤了很多H100芯片再转手卖,价格会相对贵一点。”一位代理商表示。
记者从超算行业相关人士了解到,有不少人手头囤积几十到上百片H100现货,以寻求在流通中获得价差。根据一位经销商报价,目前100多片H100芯片的大概价格在280多万美元左右。
中国信息通信研究院南方分院院长助理张昊在CITE 2024上表示,目前我国智能算力全球占比超30%,主要依赖美国英伟达GPU芯片,国产自主算力份额仅为5%,国内TensorfiowPyTorch、Caffe等美国AI框架使用率超过90%。
不过,张昊同时提到,当前国内已有企业推出智能算力芯片,在电商智能搜索、智慧工业、智能驾驶等部分推理场景已开展应用落地,在大模型训练应用尚处起步阶段。国内智能算力芯片综合性能较英伟达产品存在一定差距,但个别产品在自然语言、图像处理等算法上能力较强。
从性能来看,国产GPU在训练方面的性能是英伟达A100的50%,和英伟达H100存在两代以上差距;推理方面,与英伟达A10、T4性能接近,具备替代潜力。
从应用上来看,目前国内如昇腾、寒武纪、天数智芯主流芯片厂商已完成对主流大模型的适配。
“国产芯片加速与国内外大模型适配,具备10亿参数大模型预训练+微调,百亿参数大模型推理的能力。随着大模型种类收敛,以及大模型推理部署普及,国产GPU芯片组建的算力整机和集群有望在大模型调优、推理应用方面寻求市场开拓机遇。”张昊表示。
本文来自微信公众号:时代周报 (ID:timeweekly),作者:郭美婷,编辑:林铭铭