Groq会同时挑战英伟达和谷歌吗?

Groq芯片的厉害之处,各路自称专家的做出了不同的解读,但真正权威的,还应该是Groq的首席架构师和研究员 Igor。

贾扬清做了一番估算,采购性能相当的H100和Groq服务器,运行三年,H100在初始投资及运营成本(主要是电费)方面,要远优于Groq卡。

因此,如果运行三年,Groq。

马斯克2023年准备推出自己的模型时,一度想用Groq,但Groq已经注册了商标,并且发出警告,于是马斯克就“盗用”了Grok。

这几天,英伟达的市值刚刚超过谷歌,然后又被谷歌反超。

就在英伟达即将发布季报之际(2月21日),一家名叫Groq的初创芯片及模型企业,突然卷起了一股波澜,被人惊呼要颠覆英伟达。怎么回事?

让我们先打开这家公司的网站。出现了一个像谷歌搜索一样的主页面,甚至比谷歌更简洁。敲入一个问题,它以闪电般的速度,给出了一个完整的答案。每秒钟278个token!

它号称是世界最快大模型,比GPT-4快18倍,测试中最快达到破纪录的每秒吞吐500 tokens,还用上了自研LPU(语言处理单元),是一种名为张量流处理器(TSP)的新型处理单元,自然语言处理速度是英伟达GPU 10倍,做到了推理的最低延迟。

前段时间,Groq曾公开基准测试结果,已经引起关注。在去年的高性能计算会议 SC23 上,Groq 以每秒超过 280 个 Token 的速度生成回复,刷新了 Llama-2 70B 推理的性能纪录。今年 1 月,Groq 首次参与公开基准测试,就在 Anyscale 的 LLMPerf 排行榜上取得了突出的成绩,远超其他基于云的推理提供商。

目前,LPU推理引擎可支持多种用于模型推理的机器学习开发框架,包括PyTorch、TensorFlow和ONNX。

尽管社交媒体称之为“最快大模型”,Groq还是做出了澄清:“我们不是大型语言模型。我们的LPU推理引擎是一种新型的端到端处理单元系统,它为计算密集型应用提供最快的推理能力,这些应用具有序列组件,例如人工智能语言应用。” 它只提供推理,不能用来训练大模型。

目前它采用了Mistral 8X7B和Llama2 70B两种最流行的开源模型,适配到其编译器上运行。它们的商业模式是针对大型系统,也为企业部署,它不出售单卡/芯片。因为拥有芯片到系统的整个技术栈,而且没有中间商,它能产生单位Token的价格优势。

Groq芯片的厉害之处,各路自称专家的做出了不同的解读,但真正权威的,还应该是Groq的首席架构师和研究员 Igor Arsovski。

他认为,传统的高性能计算(HPC)系统和数据中心使用动态的时间和空间共享,平台动态协调计算、内存和网络资源在线程或工作负载之间的使用。这对于不可预测的计算工作负载来说是一个自然的解决方案,其不可预测性使得这种调解成为先决条件。不幸的是,这导致了堆栈的所有层面上的效率和复杂性成倍增加:处理器架构、内存、网络等等。

然而,现代AI工作负载具有可预测的结构,允许对计算和网络资源进行高效的静态调度。Groq通过从底层使组件确定性化,改变了这个游戏的规则。这就决定了LPU与GPU的工作原理不同。

“我们开发了大规模同步计算平台,赋予软件静态进行更多编排决策的能力。与传统网络不同,在Groq网络中,所有流量都由Groq编译器完全预先计划,没有网络冲突。这不仅最大化了链接的利用率,还最大化了芯片之间可采取的最小路径数量。”

确定性计算和静态编排引入了新的软硬件挑战和共同优化机会,克服这些挑战为AI工作负载上的更大计算和功率效率解锁了机会。Groq的软件调度网络提供了关键优势,包括:

(1)通过编译器驱动的网络流量调度实现全局网络负载平衡;

(2)通过低控制开销实现高网络带宽效率;

以及(3)通过直接拓扑实现低延迟的芯片到芯片通信。

LPU的架构,无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据,也不需要依赖高速数据传输。Groq的LPU在其系统中内嵌了SRAM(静态随机存储芯片),比HBM快约20倍。LPU只进行推理计算,需要的数据量远小于模型训练,从外部内存读取的数据更少,消耗的电量也低于GPU。Groq的LPU芯片设计实现了多个TSP的无缝连接,避免了GPU集群中的瓶颈问题,显著地提高了可扩展性。

因此,Groq公司宣称,其LPU所带来的AI推理计算是革命性的

Groq成立于2016年,位于加州山景,目前有员工180人。其CEO兼联合创始人Jonathan Ross在创立Groq之前,曾是谷歌的员工,在一个项目中负责了其中的20%,设计并实现了第一代TPU芯片的核心元素,这就是后来的谷歌张量处理单元(TPU)

对比一些流行的(开源)模型所提供的API服务,Groq自认为性价比最高。Ross提出了Token作为服务的概念(TaaS),即按照每秒钟的吞吐的词元数量进行定价。

这是Groq使用的一张第三方机构的分析。从中可以看出,Groq每百万token的价格最低,在0.7美元左右,而且其吞吐速度看起来“遥遥领先”。其中排第二位的,是华人AI科学家贾扬清创办的Lepton。

但是,在同样一家机构出示的另外的图表上,比较吞吐量与质量,以及比较价格与质量,Groq就消失了。显然,目前Groq仅在吞吐量与价格这一项指标上表现比较突出。

Groq就是快。但部署起来并不便宜。

贾扬清做了一番估算,采购性能相当的H100和Groq服务器,运行三年,H100在初始投资及运营成本(主要是电费)方面,要远优于Groq卡。

  1. 每张 Groq 卡的内存为230MB。

  2. 对于 LLaMA 70b 模型,假设使用 int8 量化,并完全忽略推理过程中的内存消耗,所需的最少卡片数量为 305 张。实际上需要更多,有报告指出需要 572 张卡片,因此我们将基于 572 张卡片进行计算。

  3. 每张 Groq 卡的价格为 20,000 美元,因此,购买 572 张卡片的成本为 1144 万美元。当然,由于销售策略和规模效应,每张卡的价格可能会低得多,但现在让我们先按照标价计算。(据其后续补充,每张卡的BOM应该在1000美元~2000美元之间——编者注 )

  4. 对于 572 张卡片,每张卡的平均功耗为 185W,不包括外围设备的总功耗为 105.8kW。(注意,实际消耗会更高。)

  5. 目前,数据中心每月每千瓦的平均价格约为 200 美元,这意味着年电费为 105.8 * 200 * 12 = 25.4 万美元。

  6. 基本上,使用 4 张 H100 卡可以实现 Groq 一半的性能,这意味着一个 8 卡 H100 盒子在能力上大致相当于上述配置。一个 8 卡 H100 的名义最大功率为 10kW(实际约为 8-9 kW),因此年电费为 24,000 美元或略低。

  7. 如今,一个 8 卡 H100 盒子的价格约为 30 万美元。

  8. 因此,如果运行三年,Groq 的硬件购买成本为 1144 万美元,运营成本为 76.2 万美元。对于一个 8 卡 H100 盒子,硬件购买成本为 30 万美元,运营成本为 7.2 万美元或略低。

他进一步吐槽说:坦白说,我们对目前的词元价格加上速度服务等级协议(SLA)的组合并不满意。换句话说,我们对词元的价格是满意的,但如果有人大量并行调用API,我们不保证速度。言外之意,似乎Groq也会面临同样的问题。

由于GPU的生态极为发达,Groq目前只能绑定少数较大模型服务客户。它需要扩展其服务量,进一步降低TCO (总体成本),这样在低延迟方面的优势才能持续建立起来。

尽管如此,Groq的技术和模式很有启发性:

1. 它的芯片+推理服务,端到端的AI模式,也是一些大模型公司正在考虑的,OpenAI推出了Sora,很快也将推出GPT-5,但其算力正严重影响其业务的进一步发展,它在推理延迟方面,以及大量并发调用其API服务方面,都需要更强大高效的算力。奥特曼从去年底就一直在忙乎融资造芯片,故事越讲越大,已经达到了7万亿美元。

2. 大模型推理等AI专用加速芯片,也是英伟达正在努力的方向。GPU是数据中心的通用芯片,但是在一些专用的领域,它并不是效率最高的。目前各大科技巨头、一些芯片设计独角兽企业,都在研发更具效率、部分替代GPU的芯片。英伟达也已经意识到这一点,建立起了定制芯片的业务部门。

3. 它是GPU的一个重要补充,它让面对紧缺昂贵的GPU芯片的初创企业有了一个新的选择。据测算,目前AI初创企业融到的钱,其中60%到75%花到GPU上,这是一家独大卡脖子的局面。

4. 谷歌出身的Groq团队,做出的对话框速度之快,极大改变了推理的体验,它让人们进一步思考接下来搜索的前途和发展方向。

One More Thing:

Groq成立于2016年,这个词来自Grok。

Grok是美国作家海因莱因(Robert A. Heinlein)1961年科幻小说《异乡异客》(Stranger in a Strange Land)中创造的一个词。

Grok是一个火星词,在地球语中无法定义,但延伸出各种字面意义,如“水”、“饮用”、“相互关联”、“生命”或“生活”,并且具有更为深刻的喻义。在地球文化的单一现实中,词意更颇为迷离。

书中描述,饮水是火星上的一个生存焦点,那里水资源稀缺。火星人用他们的身体与水融合,成为一个简单的例子或象征,展示了两个实体如何结合创造出一个大于部分之和的新现实。水成为饮水者的一部分,饮水者也成为水的一部分。两者相互理解(grok)。曾经拥有独立现实的事物变得在相同的经历、目标、历史和宗旨中交织在一起。在书中,主要角色之间口头表达的神圣声明,是发自内心的,“你即是上帝”,是从grok这一术语内在概念中逻辑推导出来的。

(注:本文作者在选取这段英文原文翻译成中文时,Groq的确要快很多,但GPT-4的翻译在信达雅方面结合得更好,因此选用了GPT-4的翻译,并进行了编辑润色。)

Grok很快在计算机、极客、黑客圈子里流行开来,并且成为60年代兴起的反主流文化中的一个重要词汇。

马斯克2023年准备推出自己的模型时,一度想用Groq,但Groq已经注册了商标,并且发出警告,于是马斯克就“盗用”了Grok。

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年2月21日
Next 2024年2月22日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日