英伟达再推“中国特供”芯片：AI竞争中的猫鼠游戏

2023年11月29日 21:32 • 未来科技

4090，通过拆解出 GPU 核心，再外置鼓风机风冷的方式，让多卡组合适配 AI 服务器工作。

考虑到国内客户的 DIY 能力，且由于 L20 在生产中不涉及产能受限的 CoWoS 封装环节，因此能够短时间内推向市场，缓解很多买家的算力慌。

谁还需要“特供版”

联想集团董事长兼 CEO 杨元庆曾表示，目前大多数大模型都在算力较强的公有云上训练。未来，大模型的计算负载将逐渐由云端向边缘侧和端侧下沉。越来越多的人工智能的推理任务将会在边缘和设备端进行。

英伟达的第一代“特供版”芯片 A800 和 H800 有 11 个月的出口窗口期，平台公司利用这一窗口期大量采购。市场上有消息称，百度、字节跳动、腾讯和阿里已向英伟达订购了价值 10 亿美元的共约 10 万张 A800 芯片，将于年内交付，另外价值 40 亿美元的芯片将于 2024 年交付。腾讯曾发布公开声明称，储备了大量的 A800 和 H800 芯片，足够支持好几套 AI 大模型的训练。

可以预见，第一代“特供版”将成为公有云算力的重要来源，承担大模型的预训练任务。

在中美人工智能的激烈竞争中，英伟达成为了游弋在政治和商业中寻找利益最大化的“鲨鱼”。

美国商务部产业与安全局（BIS） 1017 新规已经在 11 月 16 日生效，英伟达针对中国市场推出的“特供版” A800 和 H800 芯片遭到出口合规限制，无法向中国客户出售。

然而，11 月 9 日有消息透露，英伟达将推出三款针对中国市场的 AI 芯片，包括 H20、L20 和 L2 三款，并列出了详细规格。

随后，英伟达在业绩会上确认，将努力争取高性能产品在中国市场的销售许可，也会研发更多合规的数据中心产品组合。“我们正在努力扩展我们的数据中心产品组合，以提供不需要许可证的新法规合规解决方案，这些产品可能会在未来几个月内上市。”

11月 24 日，据路透社报道，两位消息人士透露，英伟达已告知中国客户，H20 发布时间将推迟到明年第一季度。L20 芯片不会延期，并将按照原定计划推出。消息人士无法分享有关 L2 状态的信息。

1017新规是 BIS 推出的第二个版本的限制措施，这一版本比第一个版本更加严格，根据芯片的总处理性能（TPP）和性能密度划出限制条件，符合任一条件即认为处于管制范围。

特供版如何突破封锁

根据 Semianalysis 透露的规格参数，H20、L20 和 L2 三款芯片的性能被大幅压缩。

以 H20 为例，这款芯片的峰值算力最大理论值仅为 296 TFLOPs，数字上还不如消费级的游戏显卡。作为比较，热门的 H100 芯片的这一数值为 1979 TFLOPs，消费级的 RTX 4090 显卡为 661 TFLOPs。

这样的压缩显然是为了限制总处理性能和性能密度，以避开精心设计的封锁条件：

H20的总处理性能为2368，性能密度仅为 2.9，小于 3.2 的管制许可值；

L20的总处理性能为1912，但性能密度为 3.1，小于 3.2 的管制许可值；

L2的性能密度为 5.2，但总处理性能仅为1544，小于 1600 的管制许可值。

大幅压缩参数之后，三款芯片仍然有众多耐人寻味的地方。

H20 有比 H100 更高的缓存和带宽，支持英伟达第四代 NVLink 连接，连接速度保留了 900 GB/s 满速。这保证了多卡增强效果的实现，在实际多卡互联环境中，H20 组合性能接近 H100 的 50%。

不过，H20 的侧重点在模型推理环节，不需要承担 H100 那样的预训练任务。由于采用了与英伟达下一代 GPU 相似的核心，Semianalysis 推算，H20 在大模型推理运算中比 H100 还要快 20%，这将极大提高大模型产品在应用端的表现。比如，运行 Meta 700 亿参数的 LLAMA 模型需要两个 H100，但只需要一个 H20。

L20和 L2 分别替代此前遭到管制的 L40 和 L4，更适合用于工作站等领域。L20 和 L2 采用了跟 RTX 4090 同样的 Ada Lovelace 架构，其中，L20 使用的是 RTX 4090 同款的 AD102 GPU 核心。

此前国内有 RTX 4090 显卡 DIY 工厂被曝出，买家大量囤积 RTX 4090，通过拆解出 GPU 核心，再外置鼓风机风冷的方式，让多卡组合适配 AI 服务器工作。

考虑到国内客户的 DIY 能力，且由于 L20 在生产中不涉及产能受限的 CoWoS 封装环节，因此能够短时间内推向市场，缓解很多买家的算力慌。

谁还需要“特供版”

联想集团董事长兼 CEO 杨元庆曾表示，目前大多数大模型都在算力较强的公有云上训练。未来，大模型的计算负载将逐渐由云端向边缘侧和端侧下沉。越来越多的人工智能的推理任务将会在边缘和设备端进行。

可以预见，第一代“特供版”将成为公有云算力的重要来源，承担大模型的预训练任务。第二代“特供版”把重点放在了大模型推理运算环节上，这一环节更靠近应用端，对算力要求相对于模型预训练更低，更多的要求是在短时间内处理大量的输入数据。

AI大模型训练涉及到众多环节，从 OpenAI 到创业公司，普遍面临缺少训练数据的情况，特别是垂直领域当中与业务有关的数据。

电厂记者从业内人士那里了解到，很多行业在上一轮数字化转型当中没能做好，导致在 AI 落地方面缺少数据。低数据量会造成应用端表现差，直接影响前端的表现，进而无法沉淀更多数据出来。

因此，中小企业和个体创业者急需大模型落地，用相对不高的算力启动，用时间把数据跑出来。这次的三款特供版芯片，也针对这一趋势，面向更多“边缘”客户。

英伟达此前就有布局，为了帮助更多没有拿到足够算力的中小企业和个体创业者。英伟达在 10 月份针对 Windows 平台推出了 TensorRT-LLM，这个模型可以帮助运行在 Windows 设备的大模型更好地利用 RTX 显卡和 GPU 的性能。根据英伟达的说法，这样的设备超过 1 亿台。

“特供版”还是“烟雾弹”

美国商务部 1017 新规的生效时间是 11 月 16 日，正是传言中 H20 的发布日期。H20 “原计划”将在 11 月 16 日发布，在 12 月量产，但后来推迟到明年一季度。

黄仁勋在业绩会上也提到，“我们将确保与美国政府充分讨论我们在这些产品上的意图。”很显然，英伟达要留出时间窗口，等待监管方的反应。那么，H20 首先是一枚烟雾弹。

从 BIS 1017 新规中表现出的“哪里漏了补哪里”的特点来看，英伟达在与 BIS 的这场猫鼠游戏中占有主动权，有更丰富的技术储备和应对思路。一旦 H20 进入安全通道，更多“特供版”也会陆续到来。

可另一方面，即便英伟达主动推出“特供版”，也要考虑市场容量和产能。

英伟达 H100 还在消化订单，H200 排队到明年二季度，整个供应瓶颈卡在台积电的 CoWoS 封装环节。H20 同样使用台积电的 CoWoS 封装，这意味着 H20 即便绕过监管，交付时间也可能比传闻更长。

由于出口限制措施，英伟达没有在算力上实现突破，但 H20 在中国市场仍然是一款一鱼多吃的产品。H20 买家将更依赖 NVLink 技术，英伟达也能借此巩固自己 CUDA 软件平台的护城河。相应的，H20 买家在后续考虑国产替代时，就要承担额外的迁移成本。

等待时间越久，这枚“特供版”芯片的命运也会愈发扑朔迷离。

本文来自微信公众号：电厂（ID：wonder-capsule），作者：肖余林，编辑：高宇雷

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

县城里的零食折扣店，暗流汹涌

Previous 2023年11月29日 19:39

OpenAI，困于“遥遥领先”

Next 2023年11月29日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

英伟达再推“中国特供”芯片：AI竞争中的猫鼠游戏

相关推荐