OpenAI从来没有掩藏其对芯片和基础设施的野心,“相关计划”一度被吹到了7万亿美元。但之前一直停留在各种讨论上,江湖上传闻也很多。
这一次,他们要玩真的了。OpenAI准备构建性能/总拥有成本(TCO)最优的机器学习基础设施。
OpenAI对谷歌TPU芯片的顶尖人才开始了大胆的偷猎行动。据半导体博客Semianalysis, 其半导体团队人数迅速从几个人增加到两位数。几乎所有被挖走的人,要么现在暂时在谷歌TPU工作(马上要离职),要么曾在谷歌TPU工作过。
TPU的前员工大多在初创公司工作,试图以更创新/激进的方式解决AI普及的最大障碍。如加速芯片和推理引擎独角兽公司Groq的创始人兼CEO Jonathan Ross,曾在谷歌参与设计并实现了第一代TPU芯片。
OpenAI对顶尖TPU人才有各种诱惑:
首先,加入OpenAI,就有机会参与构建人类有史以来最宏大的计算机系统,涉及许多机器学习系统、扩展和软硬件协同设计的挑战,事业心强的人会对此非常向往。OpenAI的算力雄心超过了任何竞争对手,它要构建百万加速器级别的系统,其规模比训练GPT-4的系统大了数个量级。相比之下,谷歌最新的两代TPUv5和TPUv6(Trillium) 在系统设计和微架构上目标不够宏伟,更像是迭代改进。
其次,团队成员可以与模型研究团队合作,障碍比在其他公司要少得多。尽管TPU团队和Google DeepMind团队合作相当密切,但业内普遍认为,在谷歌庞大的官僚体系中,这种合作的深度远不及OpenAI团队内部。
最后一个原因当然是金钱。OpenAI开出的基本工资很体面,但更重要的是,他们向高级工程师提供每年数百万美元的“股权”。这里所谓的股权,是指OpenAI内部自己制定的“利润分红单位”的股权结构。
OpenAI已经挖到了很棒的人才。据Semianalysis,在问到这些人的同行时,得到的评价往往是“他们是我合作过的最好的工程师之一”。Google已经采取了一些行动试图防御,但相对于OpenAI提供的诱人条件,力度显然不够。连奥特曼都亲自下场抢人了。
实际上,此前谷歌TPU团队已经是报酬最高的半导体设计团队,其工程师的平均收入远高于大多数半导体公司,如AMD、Intel、Qualcomm等。过去只有Nvidia在薪酬方面能与Google竞争,但现在这俩都不及OpenAI。
OpenAI自己做芯片和基础设施也是迫不得已。公司目前处境尴尬,不能完全依赖微软的芯片和云服务,因为两者的关系紧张且微妙,而且微软正在认真制定自己的AI计划。
从长远来看,要想节约成本,OpenAI也无法从微软那里获得多少优惠,因为微软希望“外部”租用其内部芯片和云服务来获利。OpenAI希望自己设计,以更接近制造成本打造自己的芯片和系统。最后,OpenAI对微软芯片的设计缺乏控制,因此这些芯片及其系统不太可能完全符合其需求。
OpenAI也不敢从英伟达或AMD这样的合作伙伴处挖角,因为那样会损害合作关系。谷歌TPU是唯一在超大规模系统上能从内部替代英伟达的芯片,但目前仅限Google内部项目使用。亚马逊、Meta和微软团队仍然严重依赖英伟达的GPU,所以不必从那些尚未成功的团队挖人。没有别的选择,只能从自己的死敌谷歌TPU团队挖人。
初创芯片团队,失败率很高,新组建的芯片团队,困难重重。芯片只是第一个难关,还有系统、互联、数据管理、网络和规模、软件等一堆挑战。假设OpenAI挖到了他们想要的人才,预计至少要到2027年底,才可能有一个完全自主设计的芯片以一定的量产进入市场。
也有一种可能,是OpenAI先强化基础设施团队,为其下一代大模型训练和部署做准备,如Sora和GPT-4o,甚至GPT-5。
运行人工智能软件的硬件基础设施对资本支出(Capex)和运营支出(Opex),以及随后对毛利率的影响,显著大于以往软件时代,其中开发成本相对较高。因此,优化人工智能基础设施,对于部署人工智能软件显得尤为重要。在基础设施方面具有优势的公司,也将在部署和扩展人工智能应用方面具有优势。
在这方面经验最丰富、最具优势的,无疑是谷歌。早在2006年,谷歌就开始推广建立人工智能专用基础设施的想法,2013年开始开发TPU芯片,2016年投入量产。在SOTA模型与基础设施之间的协同,谷歌做得最好。
自2016年以来,谷歌已经开发了8种不同的人工智能专用芯片:TPU、TPUv2、TPUv3、TPUv4i、TPUv4、TPUv5,TPUv5e和刚发布的TPUv6 (Trillium)。这些芯片主要由谷歌设计,同时在中端和后端与博通有不同程度的合作,均由台积电制造。自TPUv2以来,这些芯片还采用了三星和SK海力士的HBM内存。
谷歌具备在大规模部署人工智能时提供低成本和高性能可靠运行的能力。谷歌在人工智能工作负载的性能/总拥有成本(perf/TCO)方面优于微软和亚马逊,这归功于谷歌从微架构到系统架构的整体方案。
谷歌介绍,在最近的谷歌I/O大会上推出的Trillium TPU,在每个芯片的峰值计算性能上,相比TPUv5e提升了4.7倍,使得下一代基础模型的训练速度更快,并能以更低的延迟和成本提供这些模型,能效提高了67%以上。Trillium TPU可以扩展到数百个节点,用每秒数个petabit的数据中心网络,连接成千上万数量级的芯片,形成建筑群别的超级计算机。
本文来自微信公众号:未尽研究(ID:Weijin_Research),作者:未尽研究