当OpenAI 创始人 Sam Altman登上微软Build 2024开发者大会的Keynote舞台时,细心的观众不难发现:相比于微软首席技术执行官 Kevin Scott眉飞色舞介绍Sam Altman时的神情, Sam Altman的双眉微微低垂,并未像 Kevin Scott一样亢奋。
微软首席技术执行官 Kevin Scott(右),OpenAI首席执行官Sam Altman(左)
在美国时间5月21日当天长达两个多小时的活动里,Sam Altman对于微软是那样重要,他被安排在整个活动的“压轴”阶段。而OpenAI于5月14日凌晨发布的GPT-4o几乎在微软每一个重大发布时都会被“cue”到。
相比于微软的态度,Sam Altman显得淡然许多,他穿着淡棕色T恤、蓝色牛仔裤,全程语气平静。这或许是因为Sam Altman正被场外舆论影响心情,在活动前一天演员Scarlett Johansson针对“OpenAI聊天机器人采用酷似其声音的语音”发表声明,对OpenAI提出质疑。
而在更大的视野中,环顾Sam Altman的“竞争因素”也正在变多。2024年初以来,Google、Meta、Anthropic几家大模型的头部公司先后发布了能力直逼GPT-4的模型,中国的主流AI公司在模型能力方面也都突飞猛进。在AI大模型赛道上,OpenAI虽然仍处在领先位置,但与第二名的差距已开始缩小。
但对于微软而言,OpenAI 足够重要,甚至可以被视为“战术基石”。
整个Build 2024开发者大会期间,微软的主语境一直是“强调与OpenAI的深度融合,展示各种基于GPT-4o的功能和产品”。如果考虑到,本次微软发布新品的力度,不难看出微软几乎想“搭建”可以和OpenAI深度融合的大生态:微软一口气公布了最新Copilot+PC产品,以及Phi-3-vision 、Team Copilot、Copilot Studio等50多项更新,几乎每3分钟便公布一个更新。
猛然看去微软在Build大会上发布的产品、技术更新,表面上看与2023年中的AI动作差别不大,仍是聚焦Copilot。但细看之下会发现,与OpenAI的高调合作其实已经成为微软的“明修栈道”,微软真正的战略重点正在向AI应用产品转移。
微软是要用Copilot,AI PC这些产品,以及产品构筑的生态,打造一套不管换什么AI大模型都能快速形成产品竞争力的AI模式,从而将AI沉淀成自身的竞争力。
躲在OpenAI影子里的微软小模型
从微软最新的发布看,与OpenAI的进一步融合,首先可以让其强化“系统市场”基本盘。
此前OpenAI的GPT-4o发布会上,提到了会推出ChatGPT的桌面产品,不过这款产品上线后,却只能支持M芯片的MacOS。
虽然OpenAI没有为微软开发桌面产品,但GPT-4o的能力在Windows端被直接融入了系统。有分析人士向虎嗅表示,相对于以App形式出现在Mac中,OpenAI在微软产品中的体验或会更顺滑。
微软在GPT-4o的集成方面比苹果更具优势,但与此前的Microsoft 365 Copilot不一样,GPT-4o并非微软独占。摆在微软面前的挑战是,如果不做出上述“防守动作”,随着OpenAI“摇摆程度加大”,微软在系统市场的压力有可能变大。如果未来Windows中的OpenAI能力也能迁移到苹果系统,那么微软在PC和操作系统市场中的竞争力很可能出现下滑。
目前Mac OS的市场份额在16%左右。不过,IDC称2024年第一季度Mac电脑的出货量增长了14.8%,成为五大个人电脑制造商中增长最快的公司。随着Mac出货量上涨,苹果系统对微软亦开始形成威胁。
反观微软,Windows约占全球桌面操作系统市场60%-70%的份额,但微软的PC产品Surface在全球市场中的占比并不高,且在过去一年中出现持续下滑,2024年第一季度Surface销量下降了17%,在Build大会公布Copilot+PC产品之前,分析师普遍认为这种衰退可能会持续到下一季度。
一味依赖OpenAI显然不是微软想要的,它渴望在Windows、Surface中构建独特的AI能力,从而给传统优势业务更大的“确定性”。
OpenAI没关注到的轻量化AI“小”模型,是微软的一步明棋。
目前市场上的主流厂商普遍认为,超大规模的AI模型不能完全满足设备端的AI需求,当下最好的AI硬件应该是端云结合的。
云端模型通常会选择类似GPT-4o的通用能力较强的超大参数模型,而端侧则会选择轻量化的“小”模型,这也正是微软一直以来的发力方向。
2023年6月,微软首次发布了轻量化语言模型Phi-1。到2024年4月,微软将这款模型更新到了Phi-3,其中包括3款模型:参数量为38亿的Phi-3-mini;参数量为70亿Phi-3-small;参数量为140亿Phi-3-medium。
轻量化模型对于算力和能耗的需求更低,也更适合本地化运行。微软在Build大会期间更新的Windows Copilot Runtime中就包括一组API,由Windows附带的40多个端侧AI模型提供支持,其中包括专为Copilot+ PC中的NPU设计的轻量化模型Phi-Silica,可以用于智能搜索、实时翻译、图像生成和处理等任务。
Phi-Silica基于NPU进行推理,首个token的输出速度为650 tokens/s,耗电量约1.5瓦,后续生成速度为27 tokens/s。由于推理在NPU完成,CPU和GPU可以同时处理其他计算任务。
目前,在UC伯克利的lmsys大语言模型排位赛中,2023年10月推出的phi-3-mini-4k-instruct版本,模型排位已经超越了GPT-3.5-turbo-1106。
不过,在Phi-3-medium的一些开源测试中,有开发者反馈其处理复杂编程问题,中文处理能力亦不理想。
在复杂任务和通用性方面存在局限是轻量化模型普遍存在的问题,这就需要云端大模型的配合。但模型参数量较小,训练调优的成本更低、效率更高,也可以专门为特定任务训练特定模型。
Phi-3除了具备三款语言模型之外,在Build大会上还公布了多模态模型Phi-3-vision。Phi-3-vision拥有42亿参数,目前处于预览阶段,能够执行如图表或图像相关的常规视觉推理任务。
除轻量化模型以外,为了尽力克制自己对OpenAI的“依赖程度”,微软也在投重注“升级”超大规模AI模型的研发团队,持续加码大模型的研发。
在过去几个月中,微软斥资 6.5 亿美元收购了明星AI初创公司Inflection的大量知识产权,并从该公司挖走了一批员工,包括三位联创中的两位,首席科学家 Karén Simonyan 和首席执行官 Mustafa Suleyman。
如今有外媒报道称,这些人正在微软内部研发一款名为MAI-1的5000亿参数规模的大语言模型,为日后替代OpenAI做准备。
简言之,当下微软的战术思路是:在大模型+小模型的策略中,将不同模型搭配一处。
这种模式看似符合大模型行业趋势,但其中也存在一些隐忧。
比如,多模型的配合问题。在未来的AI PC、Windows环境,或是其他客户场景中,可能会因为模型不同增加功能或系统集成的复杂性,尤其是在跨平台或跨系统的应用中。
同时,这种模式在开发和运维阶段可能需要更多的成本,不同模型之间的性能和响应时间也不一致,在需要高度同步的应用场景中,这种不一致性将大大影响用户体验,并增加优化的难度。
更麻烦的是,由于模型来自不同的开发者和平台,可能会导致模型的生态系统产生割裂。开发者和用户,可能需要在多个平台和工具之间来回切换,从而增加了学习成本和使用难度。
不过,这种模式也有好处。微软和OpenAI分别训练不同参数量的模型(超大规模和轻量化),则两家公司可以在各自的架构上进行独立优化。这样虽然需要分别投入资源,但可以针对不同的应用场景进行更有针对性的训练,可能会在特定领域中更加高效。
芯片梦,少不了OpenAI?
除了要用好OpenAI的模型能力,微软也正试图借力OpenAI摆脱英伟达的“控制”。
2023年底,微软正在研发的AI芯片Maia 100首次曝光。到2024的Build大会上,微软正式宣布了自研芯片Azure Maia 100 和 Cobalt 100 芯片的最新信息。目前,这两款芯片中的CPU芯片Cobalt 100 已经开始向 Azure 云计算服务的客户提供预览版。
除了自研芯片外,微软也在尝试搭建不依赖于NVIDIA的服务器架构。
3月29日,微软刚刚被爆出正在与OpenAI合作开发价值 1000 亿美元的AI 超级计算机“星际之门”。
据外媒报道,星际之门的关键特性之一就是不受限于NVIDIA显卡,在 Stargate 超级计算机中很可能不会使用NVIDIA专有的 InfiniBand 线,而是使用同样以太网线。
虽然谷歌,亚马逊,甚至是中国的很多厂商都在自研AI芯片,但相对来说,Google和微软的优势更加明显。
谷歌在上周的Google I/O大会上宣布了最新的六代TPU(Tensor Processing Unit)。TPU在Google中的应用,相对于GPU具有一定的优势。一方面,TPU与Gemini同根同源,不管是基于模型优化芯片,还是基于芯片优化模型,都可以在公司内部“消化”。
另一方面,TPU在处理深度学习任务,特别是大规模矩阵运算方面表现出色。由于Transformer架构依赖于大量的矩阵乘法和点积运算,TPU的设计非常适合这种计算模式。谷歌自第四代TPU开始,进一步优化了其硬件和软件,使其更高效地支持Transformer模型,比如BERT和GPT系列。
不过,GPT模型主要用到的深度学习框架是Pytorch,而Google的很多AI项目主要使用的TensorFlow框架,在模型优化方面也可能存在一些适配问题。
微软的优势则在于与OpenAI的紧密合作。在研发AI芯片的过程中则可能会与OpenAI更加紧密配合,从而获得更有价值的提升。
不过,想彻底逃离英伟达的强势状态恐非易事。
当地时间5月22日,在英伟达2025财年一季报的电话会上,该公司CEO黄仁勋透露,Blackwell架构之后还将继续推出新芯片,还将加快芯片架构更新速度,从两年更新一次,加速至一年一更。黄仁勋说:“我们将以非常快的速度全面推进。新的CPU、新的GPU、新的网络网卡、新的交换机,大量芯片正在路上。”
在4月的英伟达GTC大会上,微软和英伟达共同宣布了Azure 将成为首批引入 NVIDIA Grace Blackwell GB200 以及 NVIDIA Quantum-X800 InfiniBand 的云服务商。
近日有外媒报道称,AWS已经开始用英伟达最新的Grace Blackwell架构芯片订单代替之前订购的Grace Hopper 芯片。由此推断,作为首批云服务商的Azure,很可能也正在开展大规模换芯工程。
虽然主流AI公司和云厂商都在高喊与英伟达紧密合作,但他们也同时在加速AI芯片、算力的研发。
与Google优先争夺开发者?
在Build 2024开发者大会上,微软下出的另外几步棋,更似似剑指Google。
过去一年中,Google在模型能力和AI产品方面一直呈现追赶态势,但在最近的GoogleI/O上,Google更新的AI功能看起来似乎比微软的一系列Copilot更炫酷、更有吸引力。
针对这一点,微软的思路是“优先稳固住开发者” 。
微软在本次Build大会中推出了Copilot Studio功能,允许用户创建自定义的Copilot,作为AI Agents独立工作。
微软将Windows Copilot Runtime融入了Windows Copilot堆栈,以内置AI驱动系统革新,加速开发者在Windows平台上的AI开发进程。
微软还推出了Windows语义索引提升了Windows搜索体验,引入Recall等新功能。且还会利用Vector Embeddings API给Windows的应用提供矢量存储与RAG功能。
同时,微软还推出了可以直接在Windows上运行DirectML、PyTorch及Web神经网络的功能。开发者可以直接调用Hugging Face模型库,基于NPU加速任务处理。DirectML作为Windows核心低层API,是与DirectX相似的产品,专为机器学习优化,兼容多硬件平台,包括GPU、NPU,未来还将集成CPU。它与ONNX Runtime、PyTorch、WebNN等框架无缝对接,推动AI技术应用。
这几步明棋,其实都是微软试图通过AI生态工具,巩固其在开发者生态中的技术地位,如同DirectX巩固了微软在图形处理中的主导地位,DirectML也可能在机器学习领域产生类似的效果。
对于开发者来说,如今的Copilot战略核心在于通过建立一个开放且高度融合的生态系统,将AI的力量渗透到每一个开发环节和应用场景中,从而以增强AI生态的形式,固化AI应用能力。
除了个人Copilot,微软还着重强调了Team Copilot。
在GPT-4的加持下,微软是最早在办公软件中提出Copilot概念的公司之一。此次更新的Team Copilot主要功能包括:会议主持人,通过管理议程和记录会议笔记,使会议讨论更加高效;小组协作,帮助团队成员从聊天中提取重要信息,跟踪行动项目,并解决未解决的问题;项目经理,创建和分配任务,跟踪截止日期,通知团队成员需要输入的时间,确保项目顺利进行 。
这三大主要功能与Google I/O大会上刚刚提过的的“数字员工”几乎重叠。
而更有价值的是,微软允许企业和开发者构建AI驱动的Copilot,这些Copilot可以像虚拟员工一样自动执行任务。这一改变意味着Copilot不仅仅是被动等待查询的工具,它将能够执行如监控电子邮件收件箱、自动化数据录入等一系列通常由员工手动完成的任务。
此外,微软的Copilot Connectors功能可以为企业实现数据的无缝结合,且支持多种数据源的整合,如公共网站、SharePoint、OneDrive、Microsoft Dataverse表、Microsoft Fabric OneLake和Microsoft Graph等。这使得Copilot能够利用丰富的数据资源,提供更为精准和个性化的服务,进一步增强了其在企业应用中的价值。
微软目前正在向一小部分早期访问测试者预览这一新功能,并计划在2024年晚些时候在Copilot Studio中进行公开预览。企业将能够创建一个处理IT帮助台服务任务、员工入职等任务的Copilot代理。微软在一篇博客文章中表示:“Copilots正在从与你一起工作的助手演变为为你工作的助手。”
相比于Google上周提到的AI Teammate,微软的Copilot Studio似乎能提供更高的灵活性。允许企业根据自身需求定制Copilot,使其能够执行特定的业务流程。自定义的灵活性使企业能够更好地利用Copilot来提升业务效率。但也可能设置了较高的使用门槛。
谷歌的优势则在于借助于Google Cloud和Google的搜索引擎技术,Gemini能够高效地处理和分析大量数据,提供精准和实时的业务洞见。
企业对AI技术的依赖程度增加,也可能导致对技术提供商(如微软)的高度依赖。不过,目前两家都是要深度融合自身办公软件生态以及云业务,拼到最后,可能还是要卷价格。
结语
与OpenAI的绑定,目前仍是微软的重要竞争力,但微软已经开始思考如何减少对外部的依赖。
从投资自研AI芯片到优化用户体验,微软着力于解决技术落地的实际难题,寻求在通用性和个性化需求间找到平衡点。通过跨行业合作与自家产品线的AI集成,微软旨在深化其在各领域的影响力并拓宽业务范围,同时促进办公软件及云服务的智能化升级。
AI技术的深度整合与定制化服务,如Copilot Studio和Team Copilot等也在推动微软巩固并扩展其在开发者和企业市场的影响力,将AI从辅助工具转变为驱动业务的核心动力。
微软一系列产品整合的产物,正是当下市场的大势AI PC,这也正是微软为了最大的机会。基于模型能力,操作系统的天然优势,以及生态中沉淀的AI应用产品,微软的AI PC相对于其他市场中已有的PC产品几乎是最易成功的。
然而,微软的多模型策略与生态构建也并非坦途,仍要面临模型协同、成本控制及生态系统割裂等一系列挑战。