微软自研芯片,背后有何逻辑?

互联网巨头,都爱芯片

到了2023年,互联网巨头造芯片好像不是什么新鲜事儿了,说白了,无论是CPU,还是AI芯片,如果供应全部来源外部,甚至只能从一两家公司获得产品,会是非常可怕的一件事。

从技术层面上来看,与英伟达A100/H100等通用型GPU相比,谷歌TPU设计初衷正是专注于深度学习领域,尤其是全面加速神经网络训练和推理效率。

国产百模大战风头正劲,全世界算力都处于紧缺状态,作为AI算力主要动能的GPU企业,成了大模型之战中第一批“喝汤”的企业,CPU也乘势而起。可以说,布局AI多年,CPU、GPU现在终于能够“躺着把钱赚了”。 

所有人都想从AI芯片市场中分羹,微软也有着这样的野心。昨日,酝酿数年,继谷歌、亚马逊之后,微软自己的人工智能(AI)芯片终于来了。那么,它能威胁到“红绿蓝”三厂(英特尔、英伟达、AMD)的地位吗?

微软,奔向AI芯片和CPU

首先,我们先看看微软发布了什么产品。 

微软自研芯片分为两款,一款是专门用于云端训练和推理的AI芯片(ASIC)Microsoft Azure Maia 100,另一款是由微软设计的首款CPU(中央处理器)Microsoft Azure Cobalt 100。两者都将优先用于支持微软自己的云服务。

除了芯片,在当天的Microsoft Ignite全球技术大会上,微软还发布了Microsoft 365 Copilot新增功能、Security Copilot演示、Azure最新功能展示等一系列内容。但最引人关注的还是微软的首款AI芯片Maia 100,这将为其Azure云数据中心提供动力,并为其各项人工智能服务奠定基础。

省流总结就是——一个AI加速器(ASIC),一个CPU。

接着,我们再来看看,微软的两款芯片的技术细节。

Maia 100是微软为微软云中大语言模型训练和推理而设计的首款AI芯片,采用台积电5nm工艺,晶体管数量达到1050亿个,因此,当涉及到晶体管或时钟速度时,它并不属于轻量级。同时,针对AI和生成式AI进行了优化,支持微软首次实现低于8位数据类型(MX数据类型)

微软的发言人是这样介绍这款芯片的:

  • 负责Azure芯片部门的副总裁Rani Borkar称,Maia 100已经在Bing和Office人工智能产品上测试了这款芯片,ChatGPT开发商OpenAI也在进行相关测试。微软也正在使用Maia 100加速器构建机架,明年将被允许通过Azure云为外部工作负载提供支持。

  • 微软董事长兼CEO萨提亚·纳德拉(Satya Nadella)表示,“我们的目标是确保我们和我们的合作伙伴能够为客户带来最终的效率、性能和规模。Maia 100旨在运行大语言模型、帮助AI系统更快地处理大量数据,将首先为微软自己的AI应用程序提供支持,之后再向合作伙伴和客户开放。”

  • 微软云和人工智能部门执行副总裁Scott Guthrie表示:“我们认为,Maia 100为我们提供了一种方式,可以为客户提供更快、成本更低、质量更高的解决方案。”

总结起来就是,专门为AI设计出一款成本更低廉、能耗比更好的芯片。

微软董事长兼CEO萨提亚·纳德拉(Satya Nadella)在直播中

Cobalt 100是基于Arm架构的云原生芯片,针对通用工作负载的性能、功率和成本效益进行了优化。它拥有128个核心,被称为“所有云计算供应商中速度最快的CPU”,已经在微软的部分业务中得到了应用并将于明年上市。

这款芯片表现如何?微软称,初步测试表明,Cobalt 100性能比现有商用Arm服务器的数据中心性能提高40%。

目前,微软还没有披露Cobalt 100的详细信息,但有传言表示,Cobalt 100是基于 Arm “Genesis”Neoverse CSS N2 IP设计的。

资料显示,Neoverse CSS N2可从每个芯片24、32和64核心拓展,并具有连接DDR5、LPDDR5、PCIe、CXL和其他类型IP的接口。晶粒面积分别是53平方毫米(24核心)、61平方毫米(32核心)、198平方毫米(64核心)

选用Arm技术是微软可持续发展目标的一个关键因素,其目标是优化整个数据中心的“每瓦性能”,这本质上意味着为每单位消耗的能量获得更多的计算能力。

长期以来,微软一直希望在其机群中拥有X86架构的替代品,早在2017年,微软就曾表示,其目标是让Arm服务器占其服务器计算能力的50%。

几年前,微软是Cavium/Marvell及其“Vulcan”ThunderX2 Arm服务器CPU的早期客户,当Marvell在2020年底或2021年初决定封存ThunderX3时,微软是有望成为“Triton”ThunderX3后续CPU的大买家的。

2022年,微软接受了Ampere Computing的Altra系列Arm CPU ,并开始将其大量地放入其服务器群中,但一直以来都有传言称微软正在开发自己的Arm服务器CPU。

互联网巨头,都爱芯片

到了2023年,互联网巨头造芯片好像不是什么新鲜事儿了,说白了,无论是CPU,还是AI芯片,如果供应全部来源外部,甚至只能从一两家公司获得产品,会是非常可怕的一件事。而Maia 100和Cobalt 100意图也非常明显,便是直面当今世界“红绿蓝”三厂的统治力,面对顶级AI芯片供应不足的挑战,面对x86架构统治云服务的挑战。

值得一提的是,在微软之前,已经有谷歌和亚马逊两个先例。那么这两位现在日子过得怎么样?

首先,来看看谷歌。

谷歌从2016年起开始推出自研AI张量处理单元(TPU),到今年9月已经发展到第五代——Cloud TPU v5e,其专为提供大中型训练与推理所需的成本效益和性能而设计。TPU v5e Pods能够平衡性能、灵活性和效率,允许多达256个芯片互连,聚合带宽超过400Tb/s和100petaOps的INT8性能,使对应的平台能够灵活支持一系列推理和训练要求。

目前,谷歌正在大规模使用TPU芯片来支持旗下应用产品,比如聊天机器人巴德以及谷歌云平台。当前,谷歌高达90%以上的人工智能训练工作都在使用这些芯片,TPU芯片体系支撑了包括搜索引擎在内的谷歌主要业务。

谷歌云平台首席执行官Thomas Kurian表示,最新款的TPU芯片正在成为谷歌云的最大卖点之一。除了Anthropic,其他在人工智能领域备受瞩目的初创公司,如Hugging Face和AssemblyAI也在大规模使用谷歌TPU芯片。

从技术层面上来看,与英伟达A100/H100等通用型GPU相比,谷歌TPU设计初衷正是专注于深度学习领域,尤其是全面加速神经网络训练和推理效率。英伟达的A100和H100,它们属于广义上的通用型GPU,而不仅仅局限于深度学习和人工智能领域。这些GPU具有通用计算能力,适用于多种计算工作负载,包括但不限于:高性能计算(HPC)、深度学习以及大规模数据分析。

与英伟达通用型GPU相比,谷歌TPU采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度,尤其对于中型LLM设计者来说完全够用,因此他们可能不需要依赖高性能的英伟达A100/H100。同时,TPU使用了脉动阵列等设计来优化矩阵乘法与卷积运算。谷歌TPU追求专注于AI训练和推理,因此精简化部分设计架构,这也是TPU功耗、内存带宽和FLOPS都明显低于英伟达H100的部分原因。

其次,再来看看亚马逊。 

亚马逊云科技(AWS)在2020年宣布推出用于训练AI模型的自研芯片Trainium。

此前,亚马逊推出的第一款机器学习芯片叫Amazon Inferentia,顾名思义,是做推理的,实际应用中推理的工作负载量是非常大的,Amazon Inferentia芯片的性能和吞吐量都能满足实际要求,而且,Inf1实例的成本比基于GPU的方案要低很多。

虽然推理的负载多,但一般企业也经常遇到训练任务,机器学习的训练环节经常需要用到昂贵的GPU,所以训练的成本通常会很高。为了降低成本,亚马逊推出了Amazon Trainium芯片,据说采用该芯片的Trn1实例(或者说集群)可以提供云端速度最快、成本最低的训练服务。

Trn1实例,有13.1TB/s的最大内存带宽,3.4 PFLOPS的算力,FP32的TFlops高达840,时钟频率为4GHz,含有550亿个晶体管。

据亚马逊提供的信息显示,在训练深度学习模型时,采用Amazon Trainium芯片的Trn1实例的成本,要比采用英伟达A100的P4d实例最多低40%,而且速度最多能快50%。

AWS自研的Trainium芯片正逐渐在AI大模型训练领域获得一席之地,在内部外部都有几百个客户,有隐隐超越谷歌TPU成为第二大玩家的趋势。

最近得益于全球GPU产能短缺,亚马逊吸纳了几个极重要的外部客户,公司CEO称Annapurna labs可能是未来几年AWS的number one team,目标是让未来的AI算力市场不被英伟达一家独大,其团队目前还在大力扩招。

最后,国内也曾掀起过一场跨界造芯的风潮:

  • 百度从2018年率先发布昆仑1芯片开始不断发布自研芯片;

  • 阿里成立芯片公司平头哥半导体,目前已发布多款产品;

  • 腾讯采用“投资+自研”的形式入局半导体;

  • 快手在2022年8月推出首款自研云端智能视频处理SoC芯片SL200;

  • 小米在2023年推出ISP芯片澎湃C1和充电芯片澎湃P1;

  • vivo公布自研ISP芯片V1/V2;

  • OPPO推出首款自研影像专用NPU芯片马里亚纳X,马里亚纳MariSilicon Y。

微软们,能竞争过英伟达吗?

互联网大厂为什么这么钟爱芯片,为什么都要自研?EEworld认为,主要有以下几个原因: 

1. 谁都不希望被一两家供应商所束缚,其实全世界所有的巨头都在走多供应链的路线,被一两家公司套牢了,就意味着别人可以随意调价,产能不足时,也只能干着急。一方面,英伟达芯片很贵,也受制于台积电CoWoS产能时常短缺,进一步加剧价格波动。 

2. 这些巨头都拥有自己的AI模型和云服务,一个云服务器中存在多种芯片(CPU+GPU+DPU/SmartNIC+各种定制芯片),相互协同工作效率才会更高,自己针对自己的产品做定制芯片,一定能发挥更好的协同效应,效率更高。

3. 现在所有巨头都不会只做单一业务,而是根据自己的业务全流程进行全线布局,这在全世界都非常常见。比如光伏领域硅料巨头会跨界做组件,芯片领域模拟巨头会针对自己产品做数字芯片。对科技巨头来说,布局芯片本身就是自身流程的一环,只是芯片比较难做,所以更引起大家关注。

4. 此次主角微软,也并非第一次跨界造芯。早在此前,微软就曾布局过ToF芯片;2020年,微软又和ADI就3D ToF开发与量产展开合作。只不过,3D ToF芯片不像AI芯片和CPU这般引起人们注意。

EEWorld认为,互联网巨头做芯片与“红蓝绿”厂并不冲突,这些巨头该怎么赚钱,还是会赚钱,自研芯片也会为自己开辟新的道路,具体原因如下: 

1. 从AI芯片上来看,科技巨头的芯片一定是先满足自己的需求,才会向外发展。英伟达的GPU芯片属于比较通用的器件,灵活度更高,但整体较贵,所以微软、谷歌和一众国产厂商选择了定制芯片(ASIC),比较类似英特尔Gaudi的做法。

定制芯片的成本主要集中在前期,后期无论是能效比,还是成本都更优,但只是针对一些特定场景,这样来看,这种AI芯片面向的市场更专了,和手握CUDA的英伟达不是非常冲突。用人话解释,就是收窄自己,另辟蹊径。真的能赶超英伟达吗?市场数据会给出答案。 

2. 从通用芯片上来看,采用的是Arm架构。Arm架构有哪些芯片?苹果的M系列、各种车载芯片,说白了,这应该是看Arm架构本身的潜力。Arm架构的确能在当今世界上与各种芯片掰手腕,但英伟达其实也在做Arm芯片,所以从这方面来看,通用市场未来会形成一定竞争格局。但x86赢得市场的主要关键点在于生态,进一步来看Arm架构的表现,最终取决于Arm在数据中心领域的生态。当然这又会牵扯出来x86授权、多核设计的问题,非常复杂。

3. 云数据中心可不只是一种芯片,就算做了自己的芯片,也是需要垒砌CPU+GPU+DPU的,所以他们与“红绿蓝”三大厂的生意,还会继续。

4. 芯片不是一家两家人做的,而是一个产业链条,就算是自研芯片,最终可能还会在其它交叉领域有所合作。

当然,从微软发布自研芯片中,我们依然可以看到,越是这样的大企业,相比其它企业,发布自己的自研芯片越晚。酝酿如此之久,其间考虑更多的是产品上市问题、实用性问题等。这是否意味着之前早早发布产品的公司,是否有些操之过急?答案我们无从得知,但市场数据,最终会说明一切。

参考文献

[1]MICROSOFT HOLDS CHIP MAKERS’ FEET TO THE FIRE WITH HOMEGROWN CPU AND AI CHIPS https://www.nextplatform.com/2023/11/15/microsoft-holds-chip-makers-feet-to-the-fire-with-homegrown-cpu-and-ai-chips/

[2] 谷歌(GOOGL.US)版图渗入AI芯片领域! “OpenAI劲敌”官宣使用谷歌最新TPU https://news.10jqka.com.cn/20231109/c652033284.shtml

[3] 赶超谷歌TPU?传亚马逊自研AI训练芯片已收获重量级客户.https://www.ijiwei.com/n/876338

本文来自微信公众号:电子工程世界(ID:EEworldbbs),作者:王兆楠、付斌

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年11月17日
下一篇 2023年11月17日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日