黄仁勋拿出30倍性能提升超级GPU,英伟达吞噬世界?

“这不是演唱会。你们是来参加开发者大会的!”老黄出场时,现场爆发出了巨大的欢呼声。

今天凌晨四点,加州圣何塞,全球市值第三大公司英伟达一年一度的 GTC 大会开始了。

今年的 GTC 大会伴随着生成式 AI 技术爆发,以及英伟达市值的暴涨。相对的是,算力市场也在升温,硬件和软件方面的竞争都在加剧。

而英伟达带来的产品,再次将 AI 芯片的标杆推向了难以想象的高度。

“通用计算已经失去动力,现在我们需要更大的模型,我们需要更大的 GPU,更需要将 GPU 堆叠在一起。”黄仁勋说道。“这不是为了降低成本,而是为了扩大规模。”

黄仁勋提到,大模型参数量正在呈指数级增长,此前 OpenAI 最大的模型已经有 1.8T 参数,需要吞吐数十亿 token。即使是一块 PetaFLOP 级的 GPU,训练这样大的模型也需要 1000 年才能完成。这句话还透露了一个关键信息:GPT-4 的实际参数量应该就是 1.8 万亿。

为了帮助世界构建更大的 AI,英伟达必须首先拿出新的 GPU,这就是 Backwell。此处老黄已有点词穷了:“这是块非常非常大的 GPU!

Blackwell 的发布意味着,近八年来,AI 算力增长了一千倍。一些网友看完发布会惊叹:Nvidia eats world!

2080 亿个晶体管的 Blackwell,同行不知应该怎么追

虽然全球的科技公司都还在争抢 H100 芯片,但新一代产品已来。

在今天的大会上,英伟达正式推出了 Blackwell 平台。从此以后,在数万亿参数上构建和运行实时生成式 AI 大型语言模型的成本和能耗降低到此前的 25 分之一。

Blackwell 的名字旨在纪念第一位入选美国国家科学院的黑人学者、数学家和博弈论学家 David Harold Blackwell,它继承了 Hopper GPU 架构,为加速计算树立了新的标准。英伟达表示,Blackwell 架构的 GPU 预计将于今年晚些时候发货。

正如预期的一样,Blackwell 是英伟达首个采用 MCM(多芯片封装)设计的 GPU,在同一个芯片上集成了两个 GPU。

在活动现场,黄仁勋对比了 Blackwell(右手)与 Hopper GH100 GPU(左手)的尺寸大小。

It’s OK, Hopper.

黄仁勋表示,Blackwell 将成为世界上最强大的芯片。Blackwell 架构的 GPU 拥有 2080 亿个晶体管,采用定制的、双 reticle 的台积电 4NP(4N 工艺的改进版本)制程工艺,两块小芯片之间的互联速度高达 10TBps,可以大幅度提高处理能力。

此处需要强调的是,没有内存局部性问题或缓存问题,CUDA 将其视为单块 GPU。

它还带有 192GB 速度为 8Gbps 的 HBM3E 内存,AI 算力能达到 20 petaflops(FP4 精度),相比之下,上代的 H100“仅为”4 petaflops。

这是世界上第一次有如此高效整合在一起的多 die 芯片,或许也是在制程升级速度减慢之后,升级算力的唯一方法。

黄仁勋提到,Blackwell 不是芯片名,而是整个平台的名字。具体来讲,采用 Blackwell 架构的 GPU 分为了 B200 和 GB200 产品系列,后者集成了 1 个 Grace CPU 和 2 个 B200 GPU。

其中 B200 GPU 通过 2080 亿个晶体管提供高达 20 petaflops 的 FP4 吞吐量。而 GB200 GPU 通过 900GB / 秒的超低功耗芯片到芯片连接,将两个 B200 GPU 连接到 1 个 Grace CPU 上。

GB200 架构,包含两个 GPU 和一个 CPU。

相较于 H100 Tensor Core GPU,GB200 超级芯片可以为大语言模型(LLM)推理负载提供 30 倍的性能提升,并将成本和能耗降低高达 25 倍。

“人们认为我们制造 GPU,但 GPU 看起来并不像以前那样了,”黄仁勋表示。“我现在一手拿着 100 亿,一手拿着 50 亿。”

现在,显卡不再是显卡,而是作为系统整体售卖,毕竟只有通过英伟达自家的组件才能达到最佳效率。“现在我们卖的 GPU 是 7000 个组件,3000 磅重。”

基于 Blackwell 的 AI 算力将以名为 DGX GB200 的完整服务器形态提供给用户,结合了 36 颗 NVIDIA Grace CPU 和 72 块 Blackwell GPU。这些超级芯片通过第五代 NVLink 连接成一台超级计算机。

再往上扩展,Grace Blackwell 架构的 DGX SuperPOD 由 8 个或以上的 DGX GB200 系统构建而成,这些系统通过 NVIDIA Quantum InfiniBand 网络连接,可扩展到数万个 GB200 超级芯片。用户可通过 NVLink 连接 8 个 DGX GB200 系统中的 576 块 Blackwell GPU,从而获得海量共享显存空间,来训练下一代 AI 模型。

再详细对比一下性能的升级,以前使用 Hopper 训练 GPT-MoE-1.8T,8000 块 GPU 要花费 90 天,同样的事只需要 2000 块 GB2000,能耗也只需要四分之一。

生成式 AI 的下一步是多模态和视频,也就意味着更大规模的训练,Blackwell 带来了更多可能性。

此外,大模型(LLM)的大规模推理始终是一个挑战,并非适合单个 GPU 的任务。在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的 7 倍,并且训练速度是 H100 的 4 倍。

现在,用于大模型推理的速度是上代的 30 倍,黄仁勋展示了一张对比图,蓝线是 Hopper。

“DGX 超级计算机是推进 AI 产业变革的工厂。新一代 DGX SuperPOD 集加速计算、网络和软件方面的最新进展于一身,能帮助每一个公司、行业和国家完善并生成自己的 AI,”黄仁勋说道。

有了 Blackwell,我们距离生成式 AI 的实用化也更近了一步。

两大技术革新:第二代 Transformer 引擎、第五代 NVLink

30 倍 AI 算力是如何做到的?除了使用新制程,并联两块芯片以外,Blackwell 的关键改进在于引入第二代 Transformer 引擎,它支持了 FP4 和 FP6,使得计算、带宽和模型大小翻了一番。

得益于新的微张量(micro-tensor)扩展支持和集成到英伟达 TensorRT-LLM 和 NeMo Megatron 框架中的先进动态范围管理算法,Blackwell 通过 4-bit 浮点 AI 推理能力支持了双倍的算力和模型大小。

当互联大量此类 GPU 时,第二个关键区别开始显现:下一代 NVLink 交换机可让 576 个 GPU 相互通信,具有每秒 1.8 TB 的双向带宽。

英伟达表示,此前,仅由 16 个 GPU 组成的集群会在相互通信上花费 60% 的时间,而只有 40% 的时间用于实际计算。

现在,英伟达的 NVLink Switch Chip 可以让所有这些芯片互联起来,全速运转没有瓶颈(1.8TB/s,几乎比上代快 10 倍),并帮助构建了 DGX GB200 NVL72。

通过高速互联的机制,DGX GB200 NVL72 可以被认为是一个超级 GPU,FP8 训练吞吐量高达 720 PFLOPS、FP4 推理吞吐量为 1.44 ExaFLOPS,多节点 All-to-All 通信速度为 130TB / 秒,多节点 All-Reduce 通信速度为 260TB / 秒。

在具体架构方面,DGX GB200 NVL72 拥有 18 个 GB200 节点机架,每个节点搭配 2 个 GB200 GPU。此外还有 9 个 NVSwitch 机架,从而为 GB200 NVL 提供了 720 PFLOPS 的 FP8 吞吐量,以及 FP4 精度的 ExaFLOPS。

所以今年画风变了现在 DGX 长这样:拥有 5000 条 NVLink 电缆,长达 2 英里,都是铜电缆,不需要光收发器,节省了 20kW 的计算成本。

它的功耗过大,以至于需要用液冷,同时重量高达 3000 磅(约 1361 公斤)

2016 年,老黄扛着第一个 DGX 系统给 OpenAI,这才有了如今的 ChatGPT。那个时候 DGX 的算力是 0.17Petaflops,现在这个 GB200,算力是以 Exaflop 计算的。

在英伟达新的摩尔定律下,算力的提升速度居然还加快了。

构建生态,入场具身智能

除了硬件系统,英伟达也利用生成式 AI 构建了一系列元宇宙、工业数字孪生、机器人训练软件体系。

英伟达表示,它正在将 Omniverse 企业技术引入苹果。这个想法是让开发人员通过 Vision Pro 在 AR/VR 设置中使用 Omniverse 工具。在 GTC 上,英伟达展示了设计师是如何通过 Vision Pro 使用汽车配置工具来操纵车辆,然后虚拟地进入其中的。人们可以通过 Omniverse Cloud API 以及通过云端直接流式传输到 Vision Pro 的图形传输网络来做到这一点。

最后,还有前沿方向机器人的工作,英伟达公布了人形机器人项目 GR00T

在今天的主题演讲中,黄仁勋展示了多个由 GR00T 驱动的人形机器人如何完成各种任务,包括来自 Agility Robotics、Apptronik、傅利叶智能(Fourier Intelligence) 和宇树科技(Unitree Robotics) 的机器人产品。

GR00T 脱胎于英伟达的 Isaac 机器人平台工具,基于新的通用基础模型,GR00T 驱动的人形机器人能够接受文本、语音、视频甚至现场演示的输入,并对其进行处理以采取特定的操作,包括理解自然语言、模拟人类行为、在现实世界中导航和交互。

英伟达还开发了一种新型“机器人大脑”计算芯片 Jetson Thor,能够执行复杂的任务并使用 Transformer 引擎处理多个传感器。

人形机器人赛道近期达到了一个新的火热程度。就比如英伟达的“大客户”OpenAI,一直在使用自己的 AI 模型来为一家名为 Figure 的初创公司的人形机器人提供支持。

现在英伟达也把它摆在了重要位置,正如黄仁勋所说:“机器人的 ChatGPT 时刻可能即将到来。”

你准备好了吗?

参考链接:

https://www.theverge.com/2024/3/18/24105157/nvidia-blackwell-gpu-b200-ai

https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computing

https://venturebeat.com/ai/nvidia-unveils-next-gen-blackwell-gpus-with-25x-lower-costs-and-energy-consumption/

https://venturebeat.com/ai/nvidia-shows-off-project-gr00t-a-multimodal-ai-to-power-humanoids-of-the-future/

https://www.nextplatform.com/2024/03/18/with-blackwell-gpus-ai-gets-cheaper-and-easier-competing-with-nvidia-gets-harder/

本文来自微信公众号:机器之心 (ID:almosthuman2014),作者:机器之心

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月19日
下一篇 2024年3月19日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日