英伟达,把客户逼成敌人

8 月下旬,英伟达召开例行全员会。当时英伟达股价随着销量大涨,市值稳定地回到万亿美元以上,员工手中股票的价值已经是年初的三倍多。英伟达 CEO 黄仁勋提醒他们,不要太早激动,公司的市值会到 2 万亿美元。

全球只有苹果、微软、Google 的市值到过 2 万亿美元,各自牢牢抓住十多亿用户。它们也全部都是英伟达成为万亿公司的原因。ChatGPT 火爆后,它们向英伟达下了总额数十亿美元的大订单。

本周,英伟达发布了新款 GPU H200,与上一代最大的差别是用了新款内存芯片,连计算能力都没明确公布,其市值就应声涨了 700 多亿美元。英伟达称已经给 H200 找到了买主——明年它会密集出现在亚马逊、Google、微软等公司的数据中心中。

在英伟达冲向 2 万亿美元的道路上,这些客户还会继续下大订单,但也会和它直接竞争。今天微软的 Ignite 大会是这种关系的直接体现,微软一边发布自研的 AI 芯片 Maia 100,一边邀请黄仁勋到场宣布新的合作。

微软之外,Meta、Google、亚马逊、特斯拉等英伟达的大客户,今年都投入更多资源研发 AI 芯片,甚至 OpenAI 都开始筹备芯片项目。

两倍于 LVMH 的利润率,大客户们自研芯片的动力

英伟达成立至今 30 年,前 20 多年专精于游戏显卡这一个小众市场。加密货币带来的巨大挖矿需求让英伟达激活了显卡销量,英伟达的业绩和市值因此跃升,不仅收入在 2018 年冲破百亿美元、利润率冲上 30%,股价也在 2016 年到 2018 年 10 月间大涨 800%。随着比特币在新冠疫情肆虐之际冲上 6.8 万美元,英伟达的市值也逼近万亿美元,成为最值钱的芯片公司。

2023 年 3 月发布的 GPT-4 点燃了整个人工智能行业。根据芯片研究机构 SemiAnalysis 获取的信息,OpenAI 用 2.5 万张英伟达 A100 GPU 训练了三个多月,才做出 GPT-4 大模型。

A100 是英伟达 2020 年发布的 GPU。在 GPT-4 发布前几个月,英伟达推出了 H100 GPU,把计算能力提升到 A100 的 3 倍,专门为 Transformer 架构(大模型的底层)做了优化——当时 ChatGPT 还没有面世。

对于想要研发更强大模型的 OpenAI 和追赶 OpenAI 的公司,H100 都是需要大量囤积的战略资源,它立即变得供不应求。OpenAI 发布 GPT-4 后,两度因为 GPU 短缺停止付费用户注册。

埃隆·马斯克(Elon Musk)说 H100 “比毒品都难买”。迫切需要算力的公司们,转而订购 A100。受美国政府贸易限制,中国公司只能购买降低性能的 A800 和 H800。这些 GPU 的产能也远远跟不上需求。

红杉资本在今年 9 月称,许多公司的增长瓶颈不是客户需求,而是英伟达最新 GPU 的产能。

英伟达是设计公司,并不直接生产芯片,它需要请台积电生产芯片,从其他公司采购高性能内存,再交给供应商组装成一张卡。一颗 H100 的成本约 3000 美元,而英伟达卖 30000 多美元,翻十倍:

  • 英伟达向台积电下订单,用 4 纳米的芯片产线制造 GPU 芯片,平均每颗成本 155 美元。

  • 英伟达从 SK 海力士(未来可能有三星、美光)采购六颗 HBM3(High Bandwidth Memory,高带宽内存)芯片,成本大概 2000 美元。这是因为 GPU 处理大模型任务,还需要搭载比手机、电脑更大、数据传输速度更快的内存,才能保证效率。

  • 台积电芯片产线生产出来的 GPU 和英伟达采购的 HBM3 芯片,一起送到台积电 CoWoS 封装产线,以性能折损最小的方式加工成 H100,成本大约 723 美元。

  • H100 被送到其他英伟达的供应商处,4 颗或 8 颗组装在一起,加上数据传输单元,做成服务器。

利润丰厚的 H100 推动英伟达利润率攀升到 40%,超过了所有芯片同行,达到全球最大奢饰品集团 LVMH 的近两倍。

英伟达高昂的利润,就是它客户的成本。为了借着大模型浪潮抓住用户、激活业务,许多大公司采购 GPU 后,不惜赔钱对外提供服务。GPT-4 发布后,微软将其用于必应搜索,让用户免费使用。

黄仁勋常说的 “买得 GPU 越多,省得越多” 成为过去式。大公司买得越多,英伟达赚的越多,它们亏损越多。一个显而易见的选择出现了:自研一款芯片,可能省的更多。

过去十多年,研发一款芯片的难度持续下降:台积电、三星等代工厂存在,让它们不用担心芯片代工问题;芯片人才充分流动,降低了设计芯片的难度

芯片研究机构 SemiAnalysis 的首席分析师迪伦·帕特尔(Dylan Patel)说,自研一款类似微软 Maia 100 的 AI 芯片,每年的成本大概 1 亿美元——对于研发费用每年上百亿美元的大互联网公司来说,并不算什么。

ChatGPT 带动了大模型热潮,大公司不用担心使用场景问题。咨询机构 Gartner 今年 8 月预测,全球 AI 芯片市场规模随着 ChatGPT 火热快速增长,到 2027 年就会达到近 1200 亿美元,是去年的 2.7 倍。

大公司们想在 AI 芯片研发能力上追上英伟达,投入 5 至 10 年也不一定能实现。不过它们只需要花英伟达同样的成本,做出十分之一的效果,就已经有利可图了。

训练更强的大模型,需要很多 GPU。“训练一个对标 GPT-3.5 的大模型,用 2000 至 3000 张 A100 GPU 就可以。但想要训练对标 GPT-4 的大模型,上万张 GPU 只是一个入场券。” 一家中国科技公司的大模型负责人说。

训练完成还不是结束。当用户使用大模型的时候,这些企业得靠 GPU 调动大模型 —— 即大模型推理。大模型要处理用户输入的问题,基本上每个字都要单独跑一遍大模型。给出回复时,类似的情况还要再来一遍。参数上千亿的大模型,每次跑一遍都要调用多张 GPU。

多位大模型从业者估算,如果千亿参数或更大的人工智能模型被广泛使用,大模型的训练成本和推理成本会达到 2:8,甚至 1:9。推理 GPT-4 或更强的大模型,基本上离不开英伟达高性能的 GPU。

《晚点 LatePost》了解到,参数更大的大模型推理会产生巨大算力需求,而且不可能在本地设备上实现(70 亿参数的大模型就需要 14G 内存,超出了所有手机的硬件配置和绝大多数电脑配置),不少英伟达员工因此相信公司市值会继续上升。

科技公司自研 AI 芯片,出发点都是推理参数较小的模型,然后再进一步扩展。阿里巴巴的含光 800、百度的昆仑芯片都是推理芯片,Google、亚马逊、特斯拉做 AI 芯片,也是从推理入手,然后再做训练芯片。

自研芯片不用向英伟达交税,性能低一些也能节省成本。根据迪伦·帕特尔等人的测算,按照 Google 的报价,使用其最新的 AI 芯片 TPUv5e 在训练、推理参数少于 2000 亿的大模型时,成本低于用 A100 或 H100。

大公司通常先在自己的业务中使用自研 AI 芯片,比如 Google 的 TPU 最先支持的是 Google 翻译,最新的 TPUv5e 首先用在了 Google Brad 和一系列用大模型改造的业务中(比如 Gmail)。微软 Azure 芯片部门副总裁拉尼·博卡尔(Rani Borkar)今天在发布会上说,微软正在必应、Office 等业务中测试自研的 AI 芯片 Maia 100,预计明年初投入使用。

芯片经过内部测试后,大公司会通过云计算平台对外提供服务,与英伟达争抢客户。11 月 8 日,Google 投资的 Anthropic 宣布大规模部署 TPUv5e,处理其大模型 Claude 的推理工作,这些任务原本属于英伟达的 GPU。

英伟达 2 万亿美元攻防战

“我们不需要假装公司一直处于危险之中。事实上,我们一直处于危险之中,而且我们深有体会。”11 月 9 日,黄仁勋在一场活动中说。

芯片行业先驱、英特尔联合创始人安迪·格鲁夫(Andy Grove)曾说:“成功滋生自满,自满导致失败,只有偏执狂才能生存”。英伟达也是硅谷最偏执的公司之一,从管理风格到战略蓝图都是。

大约十年前,黄仁勋在俄勒冈州立大学向台下的毕业生传输经验:“当有人全力以赴时,他们就能做你做不到的事情。全力以赴,不留后手。” 他从不对冲风险,也不会多重押注,只在自己觉得对的路线上全力押注。

从 2006 年开始,为了让 GPU 在游戏、电影之外也有用武之地,英伟达将大笔资金投入到 CUDA 研发中,投资人和华尔街的分析师们不理解,为什么要给游戏显卡不断增加计算性能、让它们越来越贵和难卖?

直到大约十年后,人工智能和深度学习展现了商业价值,英伟达早期投资得到认可,CUDA 成了英伟达隐形的护城河。

为了顾及手机、笔记本电脑的功耗,苹果、英特尔等竞争对手的芯片常常一年只能提升不到 20%。而英伟达的 AI 芯片只考虑性能这一个目标。

黄仁勋不满足 “摩尔定律” 每 18 个月性能翻一番,他提出了更快的 “黄氏定律”,并要求团队以此为目标,两年发布一款新品,保持计算性能的绝对优势。明年 3 月,英伟达将发布下一代产品 GPU B100,预计性能会大幅度超过 H100 和加速追赶的所有竞争对手。

虽然从 P100、V100 到 A100,功耗都在 250W 到 400W 之间,而 H100 的功耗直接来到了 700 W,是 FPGA 或 ASIC 路线下 AI 芯片功耗的数十倍。但更强的计算性能,让英伟达的 GPU 拥有着不可替代的地位。

面对更激烈的市场竞争,英伟达加快了新品推出速度。11 月 13 日刚发布的 H200,是英伟达第一次在两代旗舰产品中插入一个 “过渡款”。据 SemiAnalysis 的信息,英伟达将在 2025 年发布 B100 的下一代产品,发布周期从之前的两年一更,加速到了一年一更,还会延续下去。

芯片市场需求和产能经常错置,但黄仁勋从不在意周期。一旦有重要且抢手的零部件,他就会下单锁定产能,哪怕冒着用不完的风险,也要确保自身供应,挤压竞争对手。

目前 AI 芯片供应瓶颈主要是 CoWoS 先进封装和 HBM3,英伟达包下了台积电约六成 CoWoS 产能,向 HBM 的三家供应商 SK 海力士、三星和美光下了巨额订单。

根据英伟达财报,截至今年 7 月底,英伟达账上还有价值 111.5 亿美元的订单、库存和产能采购承诺,另外还有 38.1 亿美元的供应合约预付款 —— 同行里没有第二家公司有这么多的库存和预付款。

英伟达的大手笔采购,让供应商都感到担心。台积电董事长刘德音在今年二季度业绩会上说,看不清楚 AI 的火热需求是不是短期泡沫。但英伟达的订单就在那里,台积电只能选择大幅扩产跟上。

在英伟达的一再追单下,台积电已经计划将明年的 CoWoS 产能提高到 3.5 万片 / 月、同比增长 120%。

这样极致的供应链掌控策略刻在英伟达的基因里。1997 年,黄仁勋向台积电下了 1.27 亿美元的代工订单。台积电创始人张忠谋每隔一段时间就要回访,重听一遍黄仁勋的业务讲解、确保他真的需要这么多晶圆——那年英伟达的全年营收只有 2700 万美元。

英伟达还拿出了奢侈品行业惯用的 “配货” 策略。渠道商和客户们想要 H100、A100 这样的旗舰芯片,就得先买够一定量的 L40S 等适合更小模型的推理芯片,无形当中将竞争对手从够得到的市场赶走。

地缘政治是英伟达面前最大的阻碍。上一财年,中国市场为英伟达贡献了 47% 的收入。美国政府在去年和今年 10 月两度收紧高性能芯片出口,英伟达是最主要的限制对象。

英伟达的反击就是贴着红线出新品。第一轮管制后不久,英伟达就将 A100 的带宽缩水,交出既符合规定,同时不影响算力的中国特供版芯片 A800,接着在半年内继续交出旗舰芯片 H100 的替代版本 H800。

今年 11 月初,美国更新芯片禁令不到一个月,英伟达又拿出了符合新要求的 H20 GPU。虽然 H20 单卡算力只有 296 TFLPOS,是中国公司顶级 AI 芯片的 57%,但更高的内存、带宽都保证了它可以串联起来使用,买得够多就依然有很强的竞争力。英伟达股价跟着上涨近 10%。

把客户的客户变成自己的客户

全球的万亿美元公司,除去沙特阿美,都是黏住几亿甚至几十亿消费者的科技公司。

英伟达是当中异类。它的品牌长期只覆盖少数 PC 游戏用户,现在 50% 收入来自寥寥数个大型云计算公司和互联网巨头:亚马逊、微软、Google、Meta、字节跳动、阿里巴巴等。 

大公司购买英伟达的处理器有一部分是自用,但更多是将其通过云计算平台租给其他客户。客户关系最终还是留在这些云计算平台公司手上。如果有一天,它们有了性能足够强的产品,随时可以换掉英伟达。

英伟达靠着 CUDA 绑定了数百万 AI 开发者,吸引着大型云计算公司采购它的 GPU。如知名分析师本·汤普森(Ben Thompson)所说:“英伟达既不是一家硬件公司,也不是一家软件公司:它是一家将两者融为一体的公司。”

现在这套逻辑依然成立,在人工智能前沿探索中,CUDA 仍然让英伟达的 GPU 具备优势。但现在黄仁勋还要再进一步,直接把云计算平台的客户变成自己的。

今年 3 月,GPU 最稀缺的时候,英伟达推出云计算服务 DXG Cloud:英伟达把卖给云计算公司的 GPU 租回来,由英伟达员工进一步优化,再出租给需要 GPU 算力的客户。

一来一回,云计算平台承担了数据中心的建设成本,客户却去了英伟达。但微软、Google、甲骨文依然加入了英伟达的计划。作为回报,它们很快就有了最稀缺的 H100。全球最大的云计算供应商 AWS 拒绝合作,直到今年 7 月才上线了 H100 算力出租服务。

“这是我们有史以来最大、最重要的业务模式扩展。” 黄仁勋说,“英伟达不仅为云计算公司提供 GPU,还把自己推向市场。”

OpenAI CEO 山姆·阿尔特曼(Sam Altman)近期接受采访说,虽然今年 GPU 紧缺,但明年情况会更好。因为 Google、 微软等公司自研的新款 AI 芯片将会投入市场。OpenAI 已经开始测试微软发布的 AI 芯片。

“这就是资本主义的魔力,现在很多公司都想成为英伟达。” 阿尔特曼说。而英伟达的步步紧逼,也没有给他们其他选择。


本文来自微信公众号:晚点LatePost (ID:postlate),作者:贺乾明、邱豪,编辑:黄俊杰、龚方毅

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年11月17日 16:17
下一篇 2023年11月17日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日