OpenAI突袭谷歌TPU芯片人才,奥特曼想从微软另起炉灶?

OpenAI对顶尖TPU人才有各种诱惑:

首先,加入OpenAI,就有机会参与构建人类有史以来最宏大的计算机系统,涉及许多机器学习系统、扩展和软硬件协同设计的挑战,事业心强的人会对此非常向往。

自2016年以来,谷歌已经开发了8种不同的人工智能专用芯片:TPU、TPUv2、TPUv3、TPUv4i、TPUv4、TPUv5,TPUv5e和刚发布的TPUv6。

OpenAI从来没有掩藏其对芯片和基础设施的野心,“相关计划”一度被吹到了7万亿美元。但之前一直停留在各种讨论上,江湖上传闻也很多。

这一次,他们要玩真的了。OpenAI准备构建性能/总拥有成本(TCO)最优的机器学习基础设施。

OpenAI对谷歌TPU芯片的顶尖人才开始了大胆的偷猎行动。据半导体博客Semianalysis, 其半导体团队人数迅速从几个人增加到两位数。几乎所有被挖走的人,要么现在暂时在谷歌TPU工作(马上要离职),要么曾在谷歌TPU工作过。

TPU的前员工大多在初创公司工作,试图以更创新/激进的方式解决AI普及的最大障碍。如加速芯片和推理引擎独角兽公司Groq的创始人兼CEO Jonathan Ross,曾在谷歌参与设计并实现了第一代TPU芯片。

OpenAI对顶尖TPU人才有各种诱惑:

首先,加入OpenAI,就有机会参与构建人类有史以来最宏大的计算机系统,涉及许多机器学习系统、扩展和软硬件协同设计的挑战,事业心强的人会对此非常向往。OpenAI的算力雄心超过了任何竞争对手,它要构建百万加速器级别的系统,其规模比训练GPT-4的系统大了数个量级。相比之下,谷歌最新的两代TPUv5和TPUv6(Trillium) 在系统设计和微架构上目标不够宏伟,更像是迭代改进。

其次,团队成员可以与模型研究团队合作,障碍比在其他公司要少得多。尽管TPU团队和Google DeepMind团队合作相当密切,但业内普遍认为,在谷歌庞大的官僚体系中,这种合作的深度远不及OpenAI团队内部。

最后一个原因当然是金钱。OpenAI开出的基本工资很体面,但更重要的是,他们向高级工程师提供每年数百万美元的“股权”。这里所谓的股权,是指OpenAI内部自己制定的“利润分红单位”的股权结构。

OpenAI已经挖到了很棒的人才。据Semianalysis,在问到这些人的同行时,得到的评价往往是“他们是我合作过的最好的工程师之一”。Google已经采取了一些行动试图防御,但相对于OpenAI提供的诱人条件,力度显然不够。连奥特曼都亲自下场抢人了。

实际上,此前谷歌TPU团队已经是报酬最高的半导体设计团队,其工程师的平均收入远高于大多数半导体公司,如AMD、Intel、Qualcomm等。过去只有Nvidia在薪酬方面能与Google竞争,但现在这俩都不及OpenAI。

OpenAI自己做芯片和基础设施也是迫不得已。公司目前处境尴尬,不能完全依赖微软的芯片和云服务,因为两者的关系紧张且微妙,而且微软正在认真制定自己的AI计划。

从长远来看,要想节约成本,OpenAI也无法从微软那里获得多少优惠,因为微软希望“外部”租用其内部芯片和云服务来获利。OpenAI希望自己设计,以更接近制造成本打造自己的芯片和系统。最后,OpenAI对微软芯片的设计缺乏控制,因此这些芯片及其系统不太可能完全符合其需求。

OpenAI也不敢从英伟达或AMD这样的合作伙伴处挖角,因为那样会损害合作关系。谷歌TPU是唯一在超大规模系统上能从内部替代英伟达的芯片,但目前仅限Google内部项目使用。亚马逊、Meta和微软团队仍然严重依赖英伟达的GPU,所以不必从那些尚未成功的团队挖人。没有别的选择,只能从自己的死敌谷歌TPU团队挖人。

初创芯片团队,失败率很高,新组建的芯片团队,困难重重。芯片只是第一个难关,还有系统、互联、数据管理、网络和规模、软件等一堆挑战。假设OpenAI挖到了他们想要的人才,预计至少要到2027年底,才可能有一个完全自主设计的芯片以一定的量产进入市场。

也有一种可能,是OpenAI先强化基础设施团队,为其下一代大模型训练和部署做准备,如Sora和GPT-4o,甚至GPT-5。

运行人工智能软件的硬件基础设施对资本支出(Capex)和运营支出(Opex),以及随后对毛利率的影响,显著大于以往软件时代,其中开发成本相对较高。因此,优化人工智能基础设施,对于部署人工智能软件显得尤为重要。在基础设施方面具有优势的公司,也将在部署和扩展人工智能应用方面具有优势。

在这方面经验最丰富、最具优势的,无疑是谷歌。早在2006年,谷歌就开始推广建立人工智能专用基础设施的想法,2013年开始开发TPU芯片,2016年投入量产。在SOTA模型与基础设施之间的协同,谷歌做得最好。

自2016年以来,谷歌已经开发了8种不同的人工智能专用芯片:TPU、TPUv2、TPUv3、TPUv4i、TPUv4、TPUv5,TPUv5e和刚发布的TPUv6 (Trillium)。这些芯片主要由谷歌设计,同时在中端和后端与博通有不同程度的合作,均由台积电制造。自TPUv2以来,这些芯片还采用了三星和SK海力士的HBM内存。

谷歌具备在大规模部署人工智能时提供低成本和高性能可靠运行的能力。谷歌在人工智能工作负载的性能/总拥有成本(perf/TCO)方面优于微软和亚马逊,这归功于谷歌从微架构到系统架构的整体方案。

谷歌介绍,在最近的谷歌I/O大会上推出的Trillium TPU,在每个芯片的峰值计算性能上,相比TPUv5e提升了4.7倍,使得下一代基础模型的训练速度更快,并能以更低的延迟和成本提供这些模型,能效提高了67%以上。Trillium TPU可以扩展到数百个节点,用每秒数个petabit的数据中心网络,连接成千上万数量级的芯片,形成建筑群别的超级计算机。

本文来自微信公众号:未尽研究(ID:Weijin_Research),作者:未尽研究

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年6月4日
Next 2024年6月4日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日