GPT-5，被5万张H100卡脖子

2024年1月22日 15:22 • 未来科技

训练GPT-5，OpenAI对芯片的需求只会越来越大

Altman的野心是，随着AI技术的广泛应用，在未来几年建成一个自给自足的半导体供应链帝国。

AI浪潮中，英伟达坐收渔翁之利

现在，谷歌、亚马逊、Meta、OpenAI和微软都在使用英伟达的GPU来训练AI、向客户部署模型。

OpenAI曾怒甩5100万刀狂买AI芯片

去年12月，Altman就被曝出正在进行“芯片交易”，而这也疑似成为OpenAI宫斗的导火索。

Sam Altman正在筹集数十亿美元，建立一个全球性的半导体晶圆厂网络。

这一事件背后的原因很可能是，OpenAI已经无“芯”训练“GPT-5”了。

此前，据英国《金融时报》报道，OpenAI正在开发一种新的AI模型，该模型将是GPT-4的“重大升级”，预计将于今年晚些时候发布。

训练GPT-4，用了大约25000块A100 GPU 。而训练GPT-5，还需要5万张H100。如今，英伟达的H100售价为2.5万至3万美元。

英伟达的AI芯片，基本垄断了市场，这一命脉怎能掌握在他人手中？

果然，最近外媒接连曝出，Sam Altman正在和中东投资者以及台积电谈判，展开合作关系，以训练和运行AI模型的芯片。

算力货币决定着OpenAI的前途绝不能被英伟达把握在手里。Altman这次是下定决心了。

训练GPT-5，OpenAI对芯片的需求只会越来越大

Altman的野心是，随着AI技术的广泛应用，在未来几年建成一个自给自足的半导体供应链帝国。

所以，OpenAI也有意跟英特尔、台积电和三星等行业巨头竞争了？

比起亚马逊、谷歌、微软等大厂，Sam Altman显然有更宏大的计划：建立一个AI芯片工厂网络。

Altman应该是很确信，现在的台积电、三星、英特尔之类的代工厂，在未来几年内，肯定无法满足市场对AI芯片的需求。

现在，Altman正在筹集数十亿美元，希望建立一个遍布全球的AI芯片工厂网络。

现在，他正在和多家潜在的大型投资者进行谈判，包括总部设在阿布扎比的G42和软银集团。

显然，在AGI时代，芯片会供不应求。Altman现在十分担心，随着AI技术的日益普及，现有的芯片供应将无法满足大规模部署的需求。

目前生产的AI芯片，远远落后于预期的需求。只有立刻行动，才能确保在十年内能有充足的芯片供应。

然而，建立一个全球性的芯片工厂网络需要庞大的投资，并且需要耗时多年。

而且，与行业中其他公司不同的是，建设和维护半导体工厂的成本要高得多。一个先进工厂的建设成本，可能高达数百亿美元。

亚马逊、谷歌、微软都倾向于设计自家的定制芯片，将制造外包，也是因为建造和维护半导体的晶圆厂的成本实在太高了。

毕竟，建造一家最先进的晶圆厂可能需要数百亿美元的投资，而建立这样的设施网络可能需要数年时间。

根据彭博社的报道，仅在OpenAI与G42的谈判中，涉及金额就接近80亿到100亿美元。

OpenAI新金主：中东土豪

OpenAI的前任金主是微软。现在为了筹资，Altman联系上了中东土豪们，比如阿联酋的一些投资者。

其中一位，就是阿布扎比最富有、最有影响力的人物之一——谢赫·塔赫努恩。

谢赫·塔赫努恩是阿联酋最有权势的人之一，是总统谢赫·穆罕默德的兄弟，还是阿联酋的国家安全顾问。

他还负责监督迅速扩张的商业帝国，并担任阿布扎比若干最强国家投资基金的主席。其中包括8000亿美元的阿布扎比投资局和另一家国有投资实体ADQ。

另外，他还担任国际控股公司和G42的主席。前者是一家庞大的企业集团，已迅速成为阿联酋最大的上市公司；而G42是一家雄心勃勃的AI公司，已经和微软、OpenAI建立起了合作伙伴关系。

目前还不清楚Altman具体的筹款金额，但要与市值接近1.5万亿美元的英伟达竞争，保守来说至少会花费数十亿美元。

别的不说，Sam Altman的社交手腕，是真的达到了人类天花板级别。

建厂要花费的是天文数字

咱们来盘一盘，要建起一座晶圆厂，Sam Altman究竟需要花多少钱。

开发2nm或3nm工艺技术的成本，高达数十亿美元，并且随着工艺节点的缩小，这一成本还在上升。

同时，一个能够大规模生产3nm或2nm芯片的现代晶圆厂，如今成本可达300亿美元。

并且，晶圆厂的成本还在迅速上升，比如一台低数值孔径（Low-NA）极紫外（EUV）光刻设备的价格约为2亿美元，而高数值孔径（High-NA）的光刻机，预计售价在3亿至4亿美元之间。

一个领先的晶圆厂要想生产最先进的AI和高性能计算（HPC）芯片，这种设备怎么也得备上若干台。

AI浪潮中，英伟达坐收渔翁之利

现在，谷歌、亚马逊、Meta、OpenAI和微软都在使用英伟达的GPU来训练AI、向客户部署模型。仅Meta一家，就计划在年底前为服务器安装340000块H100。

可以说，英伟达垄断了目前的AI算力市场，并且手持定价权，这使得其收入飞速增长。

像Graphcore这样的芯片初创公司，已经很难与英伟达的主导地位竞争了，这是由软件和硬件之间的相互作用造成的。仅仅制造一个更快的芯片，已经是远远不够的，何况这本身就相当困难。

显然，各大科技公司都很早就开始布局了。

亚马逊、谷歌和微软这样的大科技公司是这么做的——设计自己的定制半导体产品，将生产过程外包给其他公司。

现在，各家都到了收获的季节。去年11月底，微软就推出了首款AI芯片，同时，微软也在和AMD加紧合作；2023年春季之前，Meta也推出了自家芯片；谷歌和亚马逊，则分别研发TPU和Trainium芯片多年。

OpenAI曾怒甩5100万刀狂买AI芯片

去年12月，Altman就被曝出正在进行“芯片交易”，而这也疑似成为OpenAI宫斗的导火索。

当时有外媒曝出，OpenAI在2019年与AI芯片初创公司Rain AI签订了一份价值5100万美元的意向书，会在Rain AI的芯片上市后购买芯片。

Rain AI正在研发一种“类脑”NPU芯片，能大幅降低AI算力的成本，预计将在12月流片，并于2024年10月开始供货。

而且值得注意的是，Sam Altman作为Rain AI的股东，本人也亲自斥资，投入了100万美元。

根据一位不愿意公开身份的人士透露，Sam Altman之前被OpenAI前董事会解雇，部分原因就是他的其他投资与OpenAI纠葛的关系。

RainAI开发的神经形态处理单元（NPU），能模仿人类大脑的功能，有希望提供比当今的GPU更高的处理能力和能源效率。

这个NPU“类脑”芯片，号称比GPU高出100倍的计算能力，而在训练方面的能效，甚至比GPU高出10000倍。

Rain的目标是提供一种芯片，既能用于模型和算法的训练，又能用于之后的推理运行。

根据Rain的说法，这种芯片将允许AI模型根据周围环境实时定制或微调。

从这个角度来看，它并不是当下英伟达H100之类GPU的直接竞品。

相关人士表示，这些功能对OpenAI来说是一个强大的吸引力，OpenAI希望利用这些芯片来降低数据中心的成本，并将自己的模型部署在手机和手表等设备中。

如果能够开发成功，OpenAI自然不会再受制于英伟达。

其实，Altman布局得很早。

早在2018年，他就领导了Rain的种子轮融资，一年后，OpenAI通过了这份价值5100万美元的芯片购买意向书。

当然，Altman的计划也不是一帆风顺的。

此前Rain的领导层曾改组，公司的投资者也发生了变化。一个负责监管国家安全风险投资的跨部门政府机构，要求沙特阿拉伯附属基金Prosperity7 Ventures出售其Rain的股份，之后，硅谷的Grep VC收购了这些股份。

这一切变动，都可能会增加Rain将新型芯片技术推向市场的难度，也使OpenAI的5100万美元订单的兑现日期，变得不太清晰。

总的来说，与Rain的这项交易也显示，OpenAI愿意花费大量资金，来确保自己的AI项目所需的芯片供应。

现在，从Rain AI购买的价值5100万美元的AI芯片，只是OpenAI在AI芯片上巨额投入的一小部分而已。

OpenAI的野心，正在悄悄部署

年前，OpenAI就任命了前谷歌TPU的负责人为硬件主管，并且正在招聘“数据中心设施设计专家”。

消息称，由芯片工程师Richard Ho领导生成式AI创业公司的新部门，帮助优化合作伙伴的数据中心网络、机架和架构。

“他在TPU的创建中也发挥了重要作用。也曾在DE Shaw工作并设计过ASIC。到目前为止，他更多地负责软件硬件集成、DC设计和加速器芯片选择。但OpenAI最近也聘请了不少编译器和内核方面的专家。”

另外，Altman还曾与包括芯片设计公司Arm在内的半导体高管进行过讨论，商讨如何尽早设计出新的芯片，为OpenAI降低成本。

OpenAI的GPU短缺有多严重？Altman：都先别用ChatGPT了

去年一整年，Sam Altman都在抱怨OpenAI已经陷入了严重的GPU短缺。

生成式AI爆发仍旧没有放缓，对算力提出了更高的要求。很多公司都在用英伟达性能极高的H100来训练模型，但H100非常昂贵。

马斯克就表示，GPU如今比drug还紧俏。

Sam Altman表示，OpenAI已经严重受到GPU限制，不得不推迟了众多短期计划（微调、专用容量、32k上下文窗口、多模态）。

甚至，因为GPU的短缺，Altman都不希望有很多人使用ChatGPT。

我们的GPU非常短缺，使用我们产品的人越少越好。

如果人们用得越少，我们会很开心，因为我们没有足够的GPU。

OpenAI许多用户都在抱怨API的可靠性和速度，对此Sam Altman解释道，原因也是GPU太缺了。

训练GPT-5，需要5万块H100，但此前曾有报道称，英伟达最好的芯片H100，将在2024年之前就会售罄。

如果市场上GPU跟不上，将会阻碍OpenAI提升和训练新模型的能力。

如今到处奔走的Altman，能为建立晶圆厂筹到数十亿甚至数千亿美元的资金吗？能维持厂子的运营吗？

目前我们只知道，他的举动有可能改变整个代工市场的格局。

参考资料：

https://www.tomshardware.com/tech-industry/artificial-intelligence/openais-sam-altman-raises-billions-to-build-chip-empire-report

https://the-decoder.com/gpt-4-successor-reportedly-a-major-upgrade-openais-altman-in-talks-with-tsmc-for-ai-chips/

https://www.ft.com/content/1cdaadc3-b384-4f50-88ff-291c062c8376

本文来自微信公众号：新智元（ID：AI_era），作者：新智元

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

2024年货糖战，没有新鲜事

Previous 2024年1月22日

谷歌新一轮裁员，是“随机”的？

Next 2024年1月22日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

GPT-5，被5万张H100卡脖子

相关推荐