AI芯片黑马Groq,能颠覆英伟达 ?

Groq 是一家技术公司,由 Jonathan Ross 在 2016 年创立。Ross 曾是 Google 第一个张量处理单元(TPU)的创造者,他的创立理念源于一个观点:芯片设计应从软件定义网络(SDN)中吸取灵感。

2024 年 2 月 13 日,Groq 在 ArtificialAnalysis.ai 最新的 LLM  基准测试中明显获胜,Groq 在延迟与吞吐量等关键性能指标上击败了八名参与者,Groq 处理吞吐量达到其他推理服务的 4 倍,同时收费还不到 Mistral 自己的 1/3。

图/ArtificialAnalysis.ai 

ArtificialAnalysis.ai 联合创始人 Micah Hill-Smith 表示,Groq 代表了可用速度的进一步变化,为 LLM 提供了新的用例。

Groq 创始人和CEO Jonathan Ross 表示,Groq 的存在是为了消除“贫富差距”,并帮助 AI 社区中的每个人蓬勃发展。此外,他还表示,推理对于实现这一目标至关重要,因为速度是将开发人员的想法转化为业务解决方案和改变生活的应用程序的关键。

关于 Groq 的核心团队、合作伙伴以及投资方如下:

核心团队:

图/Groq

合作伙伴:

图/Groq

投资方:

图/Groq

Groq 最新一轮 3 亿美元 C 轮融资追溯至 2021 年 4 月,而不是 ChatGPT 发布后的一年多,这一轮投资者包括老虎、D1 以及 Alumni Ventures。

关于 Groq 的 LPU 

Groq 创新的核心在于其 LPU,旨在以前所未有的速度加速 AI 模型,包括 ChatGPT 等语言模型。

LPU 推理引擎(LPU 代表语言处理单元™)是一种新型的端到端处理单元系统,可为具有顺序组件的计算密集型应用程序提供最快的推理,例如 AI 语言应用程序(LLM)

LPU 旨在克服 LLM 的两个瓶颈:计算密度和内存带宽。就 LLM 而言,LPU 比 GPU 和 CPU 具有更大的计算能力。这减少了每个单词的计算时间,从而可以更快地生成文本序列。此外,消除外部内存瓶颈使 LPU 推理引擎能够在 LLM 上提供比 GPU 好几个数量级的性能。

与利用高带宽内存(HBM)的 GPU 不同,Groq 的 LPU 利用 SRAM 进行数据处理,从而显著降低能耗并提高效率。GroqChip 的独特架构与其时间指令集相结合,可实现自然语言和其他顺序数据的理想顺序处理。

图/Groq

根据 Groq,开发者使用它的最快方法如下:

GroqCloud:请求 API 访问权限 以在基于令牌的定价模型中运行 LLM 应用程序;

Groq 编译器:编译当前应用程序以查看详细的性能、延迟和功耗指标。通过客户门户请求访问权限。

此外,开发者也可向 Groq 直接购买硬件。根据合作伙伴 Bittware 介绍,GroqChip 独立芯片是一款从头开始的可扩展处理器,以加速 AI、ML 和 HPC 工作负载,该架构比 GPU 简单得多,而且是以软件为先的设计,使其更容易编程,并以较低的延迟提供可预测的性能。

图/Groq

在软件定义网络中,通用硬件配合软件层来处理路由的复杂性,避免了使用专门的硬件。这一理念也体现在 Groq 的技术和其论文《用于大规模机器学习的软件定义张量流多处理器》中。

Groq 采用了一种从编译器开始的方法,编译器将代码转换为芯片能理解的机器语言。其目标是将机器学习算法简化,使之能在极其简单的处理器上运行,同时运行速度快且不会引发现代处理器中常见的昂贵内存调用和预测失误。

Groq 的芯片区别于传统使用高带宽内存(HBM)或动态随机存取内存(DRAM)的设计。这些内存类型需要定期刷新,引入了延迟和数据位置的不确定性。

相反,Groq 使用静态随机存取存储器(SRAM),这种存储方式在双稳态锁存电路中稳定存储数据,避免了 DRAM 和 HBM 所依赖的晶体管/电容器结构,这一设计使得 Groq 能够准确知道任何特定时刻数据的位置,允许其编译器预先定义内存调用,通过相对简单的架构实现快速计算。

Groq 的技术在运行基于 Transformer 的模型(如 GPT-4)上表现出色,因为这类计算具有高度确定性。Groq 的系统特别适合序列操作,如基于 Token 的生成,每个新 Token 的生成依赖于前一个,这样的串行操作使得计算速度成为优势。

Groq 的创新不仅提高了计算效率,还可能改变与 AI 的互动方式。如其创始人所言,随着 AI 变得越来越类似于人类,与之交互的微小不便会变得更加明显和限制性。Groq 提供了一种通过高效、确定性的计算来保持交互幻觉的方法,这在实时交互和可能的实时视频生成方面开辟了新的可能性。

Groq 的芯片采用完全确定性的 VLIW(非常长指令字)架构,没有缓冲区,并且在 Global Foundries 的 14nm 工艺节点上达到了约 725mm^2 的芯片尺寸。它没有外部内存,并且在处理过程中将权重、KVCache 和激活等全部保留在芯片上。因为每个芯片只有 230 MB 的 SRAM,实际上没有有用的模型能够完全适应单个芯片。相反,它们必须使用许多芯片来适应模型,并将它们网络化连接起来。

图/semianalysis

关于 Groq 的性能与成本

Groq 在单个序列上拥有真正惊人的性能优势。这可能使得如思维链这样的技术在现实世界中更加可用。此外,随着 AI 系统变得自主,LLMs 的输出速度需要更高,以适应如代理程序之类的应用。

同样,代码生成也需要显著降低个 token 输出延迟。实时 Sora 风格模型可能是娱乐领域的一个惊人途径。如果延迟过高,这些服务甚至可能对最终市场客户来说既不可行也不可用。

这导致了关于 Groq 的硬件和推理服务将为 AI 行业带来革命性影响的巨大炒作。虽然对于某些市场和应用来说,它确实是一个游戏规则改变者,但速度只是方程的一部分。供应链多元化是另一个对 Groq 有利的因素,他们的芯片完全在美国制造和封装。

相比之下,Nvidia 、Google、AMD 和其他 AI 芯片需要从韩国进口内存,以及从台湾进口芯片/先进封装。

这些对 Groq 来说都是正面因素,但评估硬件是否具有革命性的主要公式是性能/总拥有成本。这是谷歌深刻理解的东西。

AI 时代的黎明已经到来,至关重要的是要理解,由AI驱动的软件的成本结构与传统软件大相径庭。芯片微架构和系统架构在开发和可扩展性这些创新新形式的软件中扮演着至关重要的角色。

AI 软件运行的硬件 Infra 对 Capex(资本性支出)和Opex(运营性支出)以及随后的毛利润有着明显更大的影响,与之前开发者成本相对较大的软件世代相比,这种影响更为显著。

因此,将相当大的注意力投入到优化你的 AI Infra 上,以能够部署 AI 软件,变得更加关键。在 Infra 上具有优势的公司,也将在部署和扩展 AI App 方面具有优势。

对于开发人员和 IT 团队来说,Groq 的 LPU 和软件架构带来了三个主要优势:

  • 快速洞察:Groq 产品的高性能和低延迟可帮助数据科学家更快地构建和迭代机器学习模型。

  • 更快的生产时间:Groq 的编译器和软件环境简化了部署,从而可以更快地进行实验。与生产模型交互的能力加快了开发周期。

  • 面向未来的基础设施:Groq 的软件定义架构、先进网络和可扩展平台为 AI 增长提供了经济高效的基础。随着需求的变化,开发人员可以避免锁定或瓶颈。

创始人 Ross 还表示,Groq LPU 推理引擎已经证明,它比 GPU 更好、更快、更实惠,可用于通用 AI 语言推理。

在 Mixtral 模型的情况下,Groq 不得不连接 8 个机架,每个机架有 9 台服务器,每台服务器有 8 个芯片。总共 576 个芯片组成了推理单元,用以服务 Mixtral 模型。相比之下,Nvidia 的单个 H100 就能在低批量大小下适配模型,并且两个芯片就有足够的内存支持大批量大小。

Groq 芯片的晶圆成本可能低于每晶圆 6000 美元。与此相比,Nvidia 的 H100 在 TSMC 的 5nm 定制变体 4N 上的芯片尺寸为 814mm^2,这些晶圆的成本接近每晶圆 16000 美元。另一方面,Groq 的架构对于实施产量收割似乎不那么可行,相比之下,Nvidia 由于在大多数 H100 SKU 中禁用了约 15% 的芯片面积,拥有极高的参数产量。

此外,Nvidia 为每颗 H100 芯片从 SK Hynix 购买 80 GB 的 HBM,成本约为 1150 美元。Nvidia 还必须支付 TSMC 的 CoWoS 成本并承担产量损失,而 Groq 没有任何芯片外内存。

Groq 的芯片原材料成本明显更低。Groq 还是一家初创公司,因此它们对芯片的低批量/相对固定成本较高,这包括必须支付 Marvell 一大笔定制 ASIC 服务的利润。

图/semianalysis

这张表格展示了三种部署,表格中展示了 Groq 输出每个 token 的硅材料成本方面相对于 Nvidia 系统有一个芯片架构上的优势。

8xA100 可以服务 Mixtral 并实现每用户约 220 个 token 每秒的吞吐量,而 8xH100 可以在没有推测性解码的情况下达到每用户约 280个 token 每秒。

通过推测性解码,8xH100 推理单元可以实现接近每用户 420 个 token 每秒的吞吐量。虽然吞吐量可能超过这个数字,但在 MoE(专家混合)模型上实施推测性解码是具有挑战性的。

由于经济性非常差,目前还不存在以延迟优化的 API 服务。API 提供商目前看不到为更低的延迟收取 10 倍以上费用的市场。一旦代理和其他极低延迟任务变得更受欢迎,基于 GPU 的 API 提供商可能会启动延迟优化的 API ,与他们当前的吞吐量优化的 API 并行。

一旦 Groq 下周实施他们的批处理系统,即使是采用推测性解码的延迟优化 Nvidia 系统在吞吐量和成本上也远远落后于没有推测性解码的 Groq 。

此外,Groq 使用的是较旧的 14nm 工艺技术,并向 Marvell 支付了可观的芯片利润。如果 Groq 获得更多资金并且能够提升他们下一代 4nm 芯片的生产,预计在 2025 年下半年推出,经济情况可能开始发生显著变化。值得注意的是,Nvidia 远非坐以待毙,我们认为他们将在不到一个月的时间内宣布他们的下一代 B100。

在吞吐量优化系统中,经济情况显著改变。Nvidia 系统在BOM基础上每美元性能获得一个数量级的提升,但每用户吞吐量较低。对于吞吐量优化场景,Groq 在架构上完全不具备竞争力。

此外,创始人 Ross 还强调了 Groq 在美国制造的承诺,并指出 Groq 的芯片由 Global Foundries 在美国制造。在加拿大封装,并在加利福尼亚州组装,在地缘政治压力下的技术供应链中,拥有国内产能具有战略优势。对于国防和受监管行业,本地制造还可以简化合规性。

“Tokenomics”(代币经济学)看起来非常不同。Nvidia 的 GPU 基板拥有巨大的毛利润。此外,对服务器收取的 350000 美元价格,远高于超大规模计算提供商的 H100 服务器成本,还包括了显著的内存成本、8 个 InfiniBand NICs 的总带宽为 3.2 Tbps 以及在 Nvidia 利润之上叠加不错的 OEM 利润。

图/semianalysis

Groq正在估算系统成本,并考虑到芯片、封装、网络、CPU、内存的细节,同时假设较低的整体 ODM 利润。没有包括 Groq 销售硬件所收取的利润,但这也是 Groq 的成本与推理 API 提供商的成本的公平比较,因为两者都在提供相同的产品/模型。

图/semianalysis

值得注意的是,8 个 Nvidia GPU 只需要 2 个 CPU,但 Groq 的 576 芯片系统目前有 144 个 CPU 和 144 TB 的 RAM。

参考资料:

https://groq.com/

https://wow.groq.com/news_press/groq-lpu-inference-engine-leads-in-first-independent-llm-benchmark/

https://dzone.com/articles/ai-real-how-groq-simplifies-machine-learning

On the business, strategy, and impact of technology. Sora, Groq, and Virtual Reality,Stratechery;

Groq Inference Tokenomics,Semianalysis;

本文来自微信公众号:有新Newin(ID:NewinData),作者:有新

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月22日
下一篇 2024年2月22日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日