芯片短缺风暴

从2022年10月开始,英伟达就被禁止向中国出口A100、H100这两款高端GPU。

到2022年底,ChatGPT发布,生成式AI突然爆火,CoreWeave手头数万块GPU成为了硬通货,因为GPU非常适合用于训练AI大模型。

三、抢购、加钱、售罄

购买走私GPU不是常态,对大公司而言,终究还是得跟英伟达做正经生意,从官方渠道购买A100、H100。

去年9月,甲骨文董事长埃里森、特斯拉CEO马斯克,一起请英伟达创始人黄仁勋在硅谷一家豪华餐厅吃日料。

年届八旬的埃里森回想起那顿饭仍难以平静。“席间埃隆(马斯克)和我在乞求,我想用这个词来形容我们再恰当不过了。吃了一个小时的寿司,也乞求了一个小时。”

两位以狂妄著称的大佬甘愿伏低做小,只为能多分到一些“比毒品还难搞到”的英伟达GPU,最终两人未能如愿。

而另一家硅谷巨头思科为了保护刚买来的英伟达GPU,干脆动用装甲车来运。

正如科幻作品《沙丘》将香料设定为宇宙最重要的资源。今天同样可以大胆宣称:谁掌握了GPU,谁就掌握了AI时代的命脉。

去年以来,在加速计算和生成式AI的带动下,算力需求陡增。英伟达GPU作为提供算力的核心硬件,业界对其的需求早已“远远超过了英伟达所能供应的极限”。

为了获得尽可能多的GPU,全球科技圈从贵族俱乐部化身为私酒时代的芝加哥,产品、流量与增长交织的史诗,让位于充斥着贪婪、炫耀、谄媚与背叛的大模型舞台剧。

一、从破产边缘到80亿美元估值

在过去一年,英伟达GPU极度短缺,全世界的大厂或创业公司都在各显神通解决“芯荒”难题。

对中国企业来说,GPU短缺则是政策和产能两方面造成的。

从2022年10月开始,英伟达就被禁止向中国出口A100、H100这两款高端GPU。二道贩子们敏锐地嗅到了其中的商机。

一些企业从自家机房里把芯片禁令生效前购买的A100拆出来,卖给贩子。这些没有保修、没有质保的旧芯片,非但没有贬值,价格还从出厂时的8万多元涨到了10多万元。

A100、H100分别由英伟达在2020年及2022年推出,上市时间并不长,其在国内市场的存货相当有限。

另外,A100分为80GB、40GB两个显存版本,显存越大,所能运行的神经网络越大,训练大语言模型效果越好。厂商都想买80GB显存版本的A100,导致存货更加紧缺。

因此,有一些黑心贩子将A100的40GB版本改成80GB的来卖,很多急于购买的企业一时失察,买回去才发觉货不对板。由于这类GPU来源特殊,上当的买家根本没有质保和维权的途径,只能吃哑巴亏。

可即便如此,低配置的二手A100在2023年依然供不应求。

过去一年,市面上英伟达GPU价格涨幅一度到了200%。A100最火爆的时候,网传最高成交价接近25万元。按照这个价格,两块GPU就能换来一辆全新奔驰E级轿车。

二道贩子卖机房拆来的A100赚差价,毕竟只是小打小闹。真正靠倒卖二手GPU发家的,还要属一家名为CoreWeave的美国公司。

CoreWeave最开始是一家“挖”比特币的公司,其CEO回忆:“2016年,我们购买了第一块英伟达GPU,插上电源后,将其放在曼哈顿办公室的台球桌上,然后挖到了以太坊网络上的第一个币。”

在生成式AI火爆之前,英伟达GPU除了作为游戏显卡,最赚钱、最大的应用场景就是用于加密货币“挖矿”。因为GPU能以最快速度处理海量简单重复的问题,天然就很适合用于昼夜不停地挖比特币。

而CoreWeave的三位创始人,一开始也只是将”挖矿”用于赚取额外收入,他们的本职工作是经营对冲基金和家族办公室。可由于2016年加密货币热,他们的GPU越买越多,导致“华尔街的办公桌上堆满了GPU”。

到2018年底,CoreWeave已经成为了北美最大的以太坊“矿场”,拥有超过五万块GPU,占以太坊网络总量的1%以上。

通过将英伟达GPU用作“矿卡”,CoreWeave在加密货币领域赚到了第一桶金。但在2018年之后,市场行情急转直下,加密货币大幅贬值,与加密货币深度绑定的CoreWeave也几度面临财务危机,险些倒闭。

到2019年,CoreWeave决定转型做服务。

CoreWeave加入英伟达的云服务提供商计划,也就是围绕英伟达的芯片构建了专门的云基础设施。如果说英伟达是算力厂商,那CoreWeave就相当于算力经销商。

到2022年底,ChatGPT发布,生成式AI突然爆火,CoreWeave手头数万块GPU成为了硬通货,因为GPU非常适合用于训练AI大模型。它摇身一变,依靠手中积攒的GPU,向OpenAI、微软、Inflection等众多AI巨头卖算力。

2023年4月,CoreWeave还获得来自英伟达的B轮融资。黄仁勋在业绩电话会上点名:“一大批新的GPU专业化云服务提供商正在出现,最知名的当属CoreWeave,他们做得非常出色。”

英伟达对“亲信”CoreWeave可谓非常偏心。在一份研究机构Omdia披露出的英伟达H100供货单中,CoreWeave获得的H100数量,比特斯拉还多。

也正因为英伟达的“偏心”,除了卖算力服务,CoreWeave以囤积的英伟达芯片为抵押,从黑石、Coatue等顶级机构获得了23亿美元的债务融资。一举将公司从破产边缘,拉到了投后估值80亿美金。

二、冒高风险,买走私卡

不是谁都有CoreWeave这么好的运气。

跟英伟达关系不够亲密的企业,尤其是中小企业,购买“走私芯片”就成为一种无奈之下的选择。

随着全球AI大模型竞争愈发激烈,A100已经不能满足一些企业的需求,性能更强劲的H100日趋抢手。

问题在于,H100实在太新了,存货更少。没有存货,二道贩子也无处发挥,走私贩子们登场了。

走私贩子们的来货渠道主要有两条:一是等英伟达向美国大型企业发货后,抢购市场上的剩余库存;二是通过在印度、新加坡、马来西亚等地注册公司进口。

相比于只有指甲盖大小的微型芯片,H100的尺寸并不小。根据英伟达官方公布的尺寸,H100整个芯片大小为814平方毫米,大概有两个手掌大,走私贩子只能将H100放进背包,接受正式的过关安检。

有走私贩子透露,由于每个国家把控严格度不一,如果把H100放在包里,把它报成普通电子设备。

麻烦的是服务器架。H100需要插在服务器架上,才能用于训练AI大模型。一套完整AI服务器要配置8块H100,加上一台超微电脑的服务器架,大约相当于一个保险柜。

面对如此庞然大物,自然无法靠人肉背回。一般的做法是化整为零,将服务器拆开,用蚂蚁搬家地方式发回。至于运输途中关键部件是否会损坏,运到目的地如何拼装回去,一切都存在极大的风险。

H100在2022年3月刚发售时,售价折合人民币约24.2万元。如果在两年前屯了一批H100,什么都不用做,每张到现在能净赚6万元到9万元。

在过去一年间,从朋友圈、小红书等社交平台,到拼多多、闲鱼等电商平台,再到各类垂直社区、垂直社群,有无数贩子打出了“H100现货,手慢无!”“稀缺H100现货,先到先得!”“原厂H100,见货付款,欲购从速!”的标签。

而如果进一步私聊,这些芯片贩子会告诉你,产品没有保修或支持服务,到货最起码需要6到8周,并且需要先付定金。如果问及发货地和货源,贩子们大多会回答称“海外发货,大陆交付,可以送至指定地点。”

据买家爆料,走中小型中间商渠道,风险很高。

首先,交了定金,后续也可能因各种原因拿不到货。其次,即使能拿到货,诸如运输过程中磕碰、泡水等现象,也时有发生,“碰到这种情况就只能自认倒霉,根本不存在退货一说。”

可即便如此,在各个社交平台“H100预购从速”的帖子下方,仍然有成群结队的用户在咨询价格。

三、抢购、加钱、售罄

购买走私GPU不是常态,对大公司而言,终究还是得跟英伟达做正经生意,从官方渠道购买A100、H100。

2022年的出口禁令下发后,经英伟达游说,重新获得了出口许可。在2023年3月1日之前,英伟达可以继续给中国大陆提供A100产品。

各家科技巨头赶紧行动,经历了“从抢购,到加钱,到售罄”的心路历程。

据《晚点》报道,张一鸣在卸任CEO后,把工作重点放在了研究AI上,不仅自己看AI相关论文,还经常跟一些字节高层分享论文学习心得,以及对ChatGPT的思考。高层对AI的重视,让字节在提前抢购英伟达芯片时占得了先机。

在GPT-4发布后不到3个月,字节就被爆出,向英伟达订购了超过10亿美元(约合人民币71亿)的GPU,到货和没到货的A100和H800总计有10万块。考虑到2022年全年,英伟达数据中心GPU在中国销售额大约100亿元,也就是说,字节一家公司的订单,几乎超过了英伟达过去一年在中国的总销量。

另一家提前向英伟达下单,囤积GPU的巨头是阿里。据一位阿里云内部人士向《人物》透露,阿里云专门成立了一个供应链团队,其中有几十人负责芯片采购,直接听命于CTO。在阿里云前CEO张勇卸任之前,通义千问等AI项目都向他直接汇报。

提前抢购A100、H100最直接的好处是——省钱。因为英伟达芯片的涨价,实际上与大模型的发展息息相关。2022年在ChatGPT刚刚发布时,大厂们普遍认为生成式AI很有潜力,但不成熟,不值得大批采购AI芯片。

但到2023年3月14日,OpenAI发布GPT-4后,大厂和VC们终于意识到,GPT的颠覆性威力,以至于各界迅速形成了共识——快搞大模型、快屯AI芯片!

也是从GPT-4发布后,大模型赛道涌进了大量热钱,以及不差钱的大厂,英伟达芯片的价格也随之水涨船高。大家都必须加钱才能抢到芯片。

按照《人物》的描述:“来自美团的高管带着采购团队,把数百台8卡A100服务器,像买白菜一样全部扫走。尽管一台机器的价格要大几十万,总订单额过亿,美团的人丝毫没有犹豫,下单、签合同、打预付款、提货……流程飞快。”

再到后来,连加钱都买不到AI芯片了。商业巨头和小公司处境几乎一致。

亚马逊云CEO亚当·塞利普斯基就表示:“H100是最先进的……可即使对于AWS来说也很难获得。”

富士康董事长刘永伟也表示,过去一年只有少数公司能获得足够的英伟达AI芯片来维持需求。在台北富士康年度员工聚会上,刘永伟对记者表示:“当要满足(AI芯片)需求时,也许需要建立新工厂。”

四、吃英伟达的剩饭

英伟达GPU像香料一样,诱惑着越来越多人参与到这场争夺中。

在2023年拉斯维加斯的CES科技大会上,AMD CEO苏姿丰表示:“AI已是AMD的第一战略重点。预计AMD最新推出的Instinct MI300加速卡,可以帮助AMD占领市场。”在介绍中,MI300X芯片是一款全面超越英伟达H100 AI芯片的产品。

投放市场后,MI300也迅速成为了AMD历史上销售额最快达到10亿美元的产品。

根据AMD财报,MI300芯片订单的主要来源是微软、Meta、甲骨文、谷歌、亚马逊等大厂。与英伟达H100的客户群体高度重合。

无怪乎《福克斯》认为:“如果业界还有英伟达潜在的对手,那一定包括苏姿丰和她掌管的AMD。”

除了AMD,老牌芯片巨头英特尔也不想在AI时代掉队。

在过去一年,英特尔CEO帕特·基辛格多次表示:“生成式AI不只可以在英伟达芯片上运行。”虽然英特尔最先进的AI加速芯片Gaudi 2在性能上不及英伟达H100。但基辛格认为,Gaudi 2成本更低,主打价格优势,可以在性价比方面缩小与H100的差距。

与此同时,英特尔还宣布正在调整GPU策略,整合现有的Habana Labs、数据中心GPU两大部门,于2025年推出新平台“Falcon Shores”,进一步增强AI芯片设计能力。

按基辛格的说法:“以后的AI算力竞争一定会很有趣。”

甚至除了老牌芯片巨头,一大批半导体新生力量,也在试图抢夺英伟达的市场份额。根据外媒报道,腾讯、阿里等互联网巨头,已经有些“看不上”英伟达的特供版芯片,转而寻求与国内GPU厂商合作了。这些GPU厂商包括华为、燧原科技、摩尔线程等。

在黄仁勋最近的采访中,连AMD都看不上的老黄表示:“在生产最好的AI芯片的竞争中,华为是英伟达非常强大的竞争对手之一。”

而诸如燧原科技、摩尔线程等第二梯队国产GPU公司,也在2023年拿到了数十亿元不等的大额融资。

这一切变化都源于,全球企业都在寻找英伟达GPU的替代品。毕竟,英伟达的GPU再好,只有能用上才是真好。单是英伟达满足不了的市场需求,已经足以喂饱一大批GPU新兴企业。

但要取代英伟达又谈何容易?

造成英伟达GPU短缺最根本的原因在于,GPU是一种极端复杂的产品,需要世界上最先进的生产工艺,目前只有台积电能够加工生产,而台积电的产能是有限的。

目前H100都由台积电代工,使用4纳米工艺(A100使用的是7纳米),从开始生产到出售给客户,H100中间经历的生产、包装和测试环节,一共需要6个月左右。

根据GPU Utils发布的一份研究报告,制约GPU扩大生产的一个主要瓶颈,是所谓的CoWoS封装技术。

CoWoS可以拆分成“CoW”和“WoS”来看。“CoW(Chip-on-Wafer)”指芯片堆叠;“WoS(Wafer-on-Substrate)”则是将芯片堆叠在基板上。CoWoS就是把芯片堆叠起来,再封装于基板上,最终形成2.5D、3D的型态,减少芯片的空间,同时减少功耗和成本。CoWoS封装技术目前的月产量也就1万片左右。

台积电可不止为英伟达代工,AMD以及博通、思科和赛灵思等都同样在使用CoWoS封装技术制作芯片。

产能瓶颈限制GPU供应的难题,在短期内是无解的。即便如AMD设计出了强大的MI300加速卡,归根结底还是要找台积电代工,台积电就算把给英伟达的产能给到AMD,等于市场上GPU的总量其实没有增加。

与此同时,英伟达真正的壁垒,并不只有GPU硬件性能,还在于其庞大的AI软件生态CUDA。

简单来说,决定GPU使用效果的不只是本身性能,还包括配套软件和开发工具对应用的支持。目前英伟达定义了GPU通用计算编程框架CUDA,开发者们早已习惯了用CUDA专有的编程语言,制作GPU驱动的应用程序。

如果开发者要迁移到谷歌、亚马逊、微软或国产的GPU,他们甚至需要学习全新的软件语言,迁移成本显然很高。

但后发厂商完全不必妄自菲薄,正如中国工程院院士、清华大学计算机系教授郑纬民所言:“今天国产AI芯片只要达到国外芯片60%的性能,如果生态做好了,客户也会满意。”

只是在达到英伟达GPU 60%的性能之前,企业们看起来先选择了以拆旧货、走私、抢购、加钱扫货等方式,缓解自身的AI芯片荒。

参考资料:

Nvidia’s Stunning Ascent Has Also Made It a Giant Target

How a Shifting AI Chip Market Will Shape Nvidia’s Future

Nvidia’s New China Pickle: Customers Don’t Want Its Downgraded Chips

Armored Cars and Trillion Dollar Price Tags: How Some Tech Leaders Want to Solve the Chip Shortage

The Desperate Hunt for the A.I. Boom’s Most Indispensable Prize

How Nvidia Came to Rule AI

极客公园:英伟达力挺,这家“AI 算力黄牛”4 年估值 560 亿

人物:互联网大厂,有钱难买A100

芯潮IC:天价H100流向黑市

晚点LatePost:争夺 AI 入场券:中国大公司竞逐 GPU

本文来自微信公众号:蓝字计划(ID:NPO2020),作者:李炜

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年3月14日
Next 2024年3月14日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日