存储,战火重燃

一、冯·诺依曼的“陷阱”

韩国人之所以能等来又一次机会,很大程度上得感谢“计算机之父”冯·诺依曼。

1945年,全球第一台计算机ENIAC问世在即,冯·诺依曼联合同事发表论文,阐述了一种全新的计算机体系架构。其中最大的突破在于“存算分离”——这是逻辑运算单元第一次从存储单元中被剥离出来。

如果把计算机内部想象成后厨,那么存储器就是仓库管理员,而逻辑芯片就是主厨。

过去一年,全世界的科技公司都在抢购AI芯片,至今供不应求。

英伟达的产能上不来,很大程度上是因为HBM(高带宽内存)不够用了。每一块H100芯片,都会用到6颗HBM。当下,SK海力士、三星供应了90%的HBM,并且技术领先美光整整一个代际。

这给了韩国人一个史无前例的机会。

众所周知,内存市场一直保持着三足鼎立的格局。其中,韩国人一家独大:三星与SK海力士两家公司,就占去七成市场。但排名第三的美光,仍保有20%以上的市占。双方打得你来我往,各有胜负。

这样的局面,韩国人大抵是不满意的。上世纪80年代,日本曾攻下了9成以上的存储器市场;这种压倒性垄断,才是韩国半导体的终极梦想。

因此在2024年初,韩国政府将HBM定为国家战略技术,并为HBM供应商提供税收优惠,准备再一次发起冲锋。

如今,距离韩国人的梦想照进现实,似乎只有一步之遥了。

一、冯·诺依曼的“陷阱”

韩国人之所以能等来又一次机会,很大程度上得感谢“计算机之父”冯·诺依曼。

1945年,全球第一台计算机ENIAC问世在即,冯·诺依曼联合同事发表论文,阐述了一种全新的计算机体系架构。其中最大的突破在于“存算分离”——这是逻辑运算单元第一次从存储单元中被剥离出来。

如果把计算机内部想象成后厨,那么存储器就是仓库管理员,而逻辑芯片就是主厨。

最初,“炒菜”和“管仓库”的工作,其实都是由同一块芯片来完成的;随着“存算分离”的概念被提出之后,计算机才开始设立多个“岗位”,并分别“招募人才”。

拆分出来的逻辑芯片,最终演变成了如今的CPU与GPU。

这么做的好处显而易见:存储和逻辑芯片各司其职,如流水线一般丝滑,高效且灵活,很快获得了初代计算机设计者的青睐,并一路延续至今,经久不衰。

这就是如今大名鼎鼎的冯·诺依曼架构。

然而,“计算机之父”冯·诺依曼在设计这套架构时,无意间埋下了一颗“炸弹”。

冯·诺依曼架构如果想要效率最大化,实际有一个隐含的前提:

即存储器到逻辑芯片的数据传输速度,必须大于或等于,逻辑芯片的运算速度。翻译成人话就是,仓库管理员将食材送到后厨的速度,必须比主厨烹饪的速度快。

然而,现实中的科技树,却走上了一条截然相反的道路。

存储器明显跟不上逻辑芯片的迭代速度。以CPU为例,早在上世纪80年代,这种性能失衡已无法忽视。到21世纪前,CPU和存储器之间的性能差距已经在以每年50%的速率持续增长。

这就导致,决定一块芯片算力上限的,不是逻辑芯片的算力,而是内存的传输速度。厨师已经严重溢出,仓管能送多少食材,决定了后厨能出多少菜。

这就是现在常说的“内存墙”,即冯·诺依曼所留下的陷阱。

上个世纪,有人曾试着尝试改变现状,一批全新的芯片架构展露了头角。然而,蚍蜉难以撼树,相较于围绕冯·诺依曼架构建立的生态帝国——包括编程语言、开发工具、操作系统等带来的好处,那一点性能提升,不值一提。

直到人工智能浪潮汹涌而至。

二、新的火种

以深度学习为基石的人工智能,对算力有着近乎病态的需求。

OpenAI就曾做过一笔测算:从2012年的AlexNet模型到2017年谷歌的AlphaGoZero,算力消耗足足翻了30万倍。随着Transformer问世,“大力出奇迹”已然成为人工智能行业的底层逻辑,几乎所有科技公司都困于算力不足。

作为阻挠算力进步的“罪魁祸首”,冯·诺依曼架构很快被推上了风口浪尖。

AMD是最先意识到问题严重性的科技巨头之一。对此,它采用了一种非常“简单粗暴”的解决方案——把存储器放到离逻辑芯片更近的地方。我把“仓库”建得离“后厨”近一点,送货速度不就提上来了么?

但在当年,AMD这套方案存在一个致命缺陷。

过去,存储通常都通过插槽“外挂”在GPU封装之外,相当于把仓库建在郊区。

然而,AMD为了缩短两者的距离,打算将存储器移到和GPU同一封装内的同一块载板上。但载板面积十分有限,如同寸土寸金的中心城区。传统的内存往往面积又很大,仿佛一个特大型仓库,中心城区显然建不下。

至此,HBM开始登上历史舞台:它使用了纵向堆叠小型DRAM裸片的方式。

我们可以把HBM想象成一座高达12层的超小型仓库。由于仓库面积小,占地需求大大降低,可以顺理成章地搬进中心城区;与此同时,从1楼到12楼,每一层都能存储数据,所以实际性能并没有缩水。

当下,HBM的表面积,只有传统内存的6%。这项新技术,让AMD的技术方案得以成功落地。

于是,AMD向太平洋对岸的SK海力士伸出了橄榄枝。

2015年,AMD推出GPU Fiji,在一块芯片载板上排布了4颗HBM,给了业内一个小小震撼。而搭载Fiji的高端显卡Radeon R9 Fury X,当年在纸面算力上,也第一次超过了英伟达同代的Kepler系列。

虽然从后续市场表现来看,Fiji是一个失败的作品,但没有妨碍HBM的惊鸿一瞥,搅乱一池春水。

三、少数人的游戏

当全球科技公司都开始押注人工智能,撞开了“内存墙”的HBM,也顺势走上时代舞台的中心。

然而,只有少数人,能从HBM浪潮中分走蛋糕。当下,HBM即将跨入第四代,牌桌却始终凑不齐四个人。截至2023年,有能力生产HBM的厂商仍然只有三家:SK海力士、三星、美光。遗憾的是,这个局面大概率还将保持很久。

三巨头虽然也垄断了传统内存,但在市场景气时,二、三线厂商也能跟着喝上肉汤。可在HBM领域,其余厂商别说喝汤,连桌都上不了。

过高的技术门槛,是造成这种局面的重要原因。

前文曾提到,HBM是一座高楼层的小型仓库;如何实现高楼层的设计,这背后可大有学问。

目前业内采用的技术叫TSV(硅通孔),是当前唯一的垂直电互联技术。通过蚀刻和电镀,TSV贯穿堆叠的DRAM裸片,实现各层的通信互联,可以想象成给大楼安装电梯。

由于HBM的面积实在太小了,导致对TSV工艺的精度有着极其严苛的要求。其操作难度,不亚于用电钻给米粒钻孔。而且,HBM还不止需要“钻一个孔”:随着大楼越造越高,HBM对TSV的需求量也会相应增加。

三巨头在TSV技术上的积累最为深厚,足以轻易甩开云云小厂,稳坐山头。

原因之二,是HBM打破了传统内存IDM的模式,需要依靠外援,自己说了不算。

IDM模式是指,从设计、制造到封装全部由内存厂商一手包办。过去,三星等内存厂商之所以敢发动价格战,正是因为掌握了整个制造流程,可以最大程度挤压利润空间。

但到了HBM,设计、制造还是自己做,可封装这一环节,就必须依赖晶圆代工厂。

HBM毕竟不是一块独立的内存,需要安装到逻辑芯片旁边。这个过程涉及到更精细的操作、更精密的设备,以及更昂贵的材料,只能求助于先进封装技术。当下,只有台积电的先进封装技术达标,三巨头都是它的客户。

只是台积电的产能相当有限,僧多粥少,三巨头都不够用;新玩家想入局,还得看台积电乐不乐意带上你。

极高的技术门槛,以及对台积电先进封装产能的依赖,HBM大概率只能是少数人的游戏。也正是因为这些特点,让HBM战争的打法,注定与过去的内存战争迥然不同。

四、重塑游戏规则

众所周知,传统内存的竞争往往围绕价格战展开。因为传统内存是个高度标准化的产品,各家之间性能差距并不大。往往谁的价格更低,谁就能拿到更多订单。

但对HBM来说,技术迭代更快的一方才握有主动权。

因为HBM主要用于AI芯片,其主要卖点就是性能。一块强大的AI芯片,能大幅缩短训练模型的时间。对科技公司而言,只要能尽早将大模型推向市场,多花些“刀乐儿”又何妨?

因此在过去几年,内存厂商一直在围绕技术内卷。

2016年,三星能在HBM市场反超SK海力士,正是因为率先量产了新一代的HBM 2,在技术上跑在了前头。

另一方面,抱上一个够粗的大腿,同样也很重要。

因为有能力生产AI芯片的科技公司,全世界数来数去就那么几家,对大客户的依赖度很高。过去几年,SK海力士、三星、美光围绕HBM的比拼,实际比的就是谁抱的大腿更粗。

SK海力士下场最早,一出道就绑定了颇有野心的AMD。可惜AMD的芯片销量不佳,连累SK海力士的HBM一度叫好不叫座。

相比之下,三星就相当“鸡贼”,凭借着率先量产的HBM2,成功抱上了英伟达的大腿,反超了SK海力士。

然而在2021年,SK海力士率先量产了HBM 3,成功将英伟达拉拢到自己的阵营中。如今全球疯抢的AI芯片H100,用的就是SK海力士的HBM。新大腿加持下,SK海力士彻底奠定了“HBM一哥”的地位。

与韩国人相比,美光运气最差,摊上了英特尔。

2016年,美光和英特尔押注了另一条技术路线。蒙头研发了数年,美光才意识到选错了路线。此时,美光已经落后韩国对手整整两个代际。

目前,SK海力士包揽了HBM整体供应的50%,隔壁的三星拿下了40%,美光仅有10%。

受到HBM业务的拉动,去年三季度SK海力士在内存市场的份额暴涨至34.3%,距离超越三星仅有一步之遥。要知道,三星已经在内存市场Top 1的位置坐了30多年了。

然而,拼迭代速度、拼大腿,新的打法,意味着更大的变数。三大厂商,目前看似分出了一二三名,实则各有底牌,正缓缓露出冰山一角。

五、三巨头的底牌

作为HBM的发明人、如今的第一名,SK海力士最大的底牌,显然是遥遥领先的技术力。

为了彻底杀死比赛,SK海力士准备直接颠覆HBM的设计思路。它计划于2026年量产HBM 4,准备把HBM直接安在GPU顶部,走向真正的3D架构。也就是说,SK海力士准备直接将仓库建在后厨楼上。

乍一看,HBM 4的设计思路似乎并不惊艳。

毕竟HBM的设计初衷,就是为了缩短仓库与后厨的距离;那么干脆把仓库搬到后厨楼上,似乎是个很自然的选择。然而,现实情况却没那么简单。

此前,各大内存厂商之所以没采用这一设计,是因为迟迟解决不了散热:

把HBM装到GPU顶部之后,数据传输的速度确实是更快了,但芯片功耗也会大幅上升,产生更多的热能。如果不能及时散热,将大大降低芯片工作效率,造成性能损耗,颇有种拆东墙补西墙的意味。

因此,如果想实现HBM 4的设计,必须得找到更好的散热方案。

目前来看,SK海力士或许找到了突破口;一旦成功落地,无疑是对友商的降维打击。

当然,SK海力士的模式也有缺陷——过于依赖台积电了。

前文曾提到,HBM技术高度绑定台积电的先进封装。但在当下,台积电的产能远远跟不上市场的需求,这就给三星留出了二度弯道超车的空间。

三星不仅是存储器市场的最大卷王,同时也是全球第二大晶圆代工厂。台积电有的,三星基本都有,包括先进封装,只是水平稍微差了些。

早在2018年,三星就推出了对标台积电的I-Cube技术,2021年时已经发展到第四代。

目前来看,三星的I-Cube技术显然是不及台积电的CoWoS,毕竟连三星自己都不用。但在台积电产能明显供不应求的当下,I-Cube技术就成了三星拉拢生意的武器。

SK海力士的老搭档AMD,就没能抵抗住“产能的诱惑”,更改了阵营。英伟达据说也有意试水,毕竟台积电的先进封装增产有限,启用三星有助于分散供应风险。

韩国人各有各的张良计,美国人有什么过桥梯?

说实话,到目前为止,美光在HBM的战场上,一直处于被动挨打、从未翻身的局面。经过近几年的追赶,美光总算望见了先头部队的背影,但也仅仅只能跟在韩国人身后“捡漏”。

距离韩国人“一统内存江山”的终极理想,似乎只差最后一步了。

不过,这显然是美国人所不乐于见到的。目前,HBM的大客户们,大多来自美国。美光虽然落后,却未必会完全出局。最新爆料显示,英伟达刚向美光预订了一批HBM 3。

此前,韩国人之所以能在内存市场“百战百胜”,是因为竞争的规则极其明确:即拼产能、成本。内卷向来是韩国人的“舒适区”,毕竟他们血管里流的都是美式咖啡。

然而,HBM是一个不那么“东亚”的产业。它面临着极其严苛的技术竞争,以及随时摇摆的大客户。更多的变数,让韩国人始终无法稳稳占据铁王座。更何况,另一股东方的神秘力量,也在虎视眈眈。

长夜漫漫,韩国人仍然无法安睡。

参考文章:

[1] HBM市场研究报告(2023.12),TrendForce

[2] HBM 成高端GPU标配,充分受益于AI服务器需求增长,广发证券

[3] HBM词条,Semiwiki

[4] HBM会替代DDR,成为计算机内存吗?EET

[5] HBM4 in Development, Organizers Eyeing Even Wider 2048-Bit Interface,Anandtech

[6] SK Hynix, Samsung’s fight for HBM lead set to escalate on AI boom,the Korea Economic Daily

[7] HBM Issues In AI Systems,SemiEngineering

[8] 冯诺依曼体系结构,CSDN

[9] 性能之殇:从冯·诺依曼瓶颈谈起,机器之心

[10] HBM促使DRAM从传统的2D加速走向3D,方正证券

本文来自微信公众号:远川科技评论(ID:kechuangych),作者:何律衡,编辑:陈彬

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月21日
下一篇 2024年2月21日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日