出品 | 虎嗅科技组
作者 | 杜钰君
编辑 | 王一鹏
头图 | 视觉中国
是GPT-4的劲敌兼平替,也是微软部署的又一利器。这家人工智能初创公司用实力让众人惊呼“微软赢麻了”。
2月26日,总部位于巴黎的人工智能公司Mistral AI发布尖端文本生成模型Mistral Large。该模型达到了顶级的推理能力,可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。
同日,微软宣布与Mistral AI 建立多年合作伙伴关系,表示“Mistral AI 是先锋,它是一位创新者和开拓者。他们对培育开源社区和实现卓越性能的承诺与 Microsoft 开发值得信赖、可扩展且负责任的 AI 解决方案的承诺和谐一致”。
图1:Microsoft官网对双方合作的宣布
一、Mistral AI的崛起之路
微软并不是第一家在Mistral AI身上押注的巨头。
Mistral AI于 2023 年 5 月正式注册成立,创始人是谷歌 DeepMind 和 Meta 的校友。仅仅成立几周后,2023年6月,Mistral AI就获得了由Lightspeed Venture Partners(光速创投)领投的1.05亿欧元(约合1.13亿美元)种子轮融资,使公司估值飙升至2.4亿欧元。仅半年后,Mistral AI又获得了由Andreessen Horowitz(a16z)领投的3.85亿欧元(约合4.15亿美元)融资,英伟达、Salesforce、法国巴黎银行等多家知名机构跟投。而到了2024年2月,微软更是直接入股Mistral AI。
从初创到被巨头青睐,Mistral AI只用了短短几个月。
资金加持下,这个仅20名左右员工的公司频频展示自己的硬实力。
9月,Mistral 7B发布,被称为当时“最强的70亿参数开源模型”。
紧接着,12月,Mistral AI在无发布会、无宣传预热的情况下默默甩出一条磁力链接,发布了首个开源MoE大模型Mistral 8x7B。87GB的种子、8x7B的MoE架构使得Mistral AI的身价一路飙升,几天后估值便高达20亿美元,与初创时间相比翻了8倍。
图2 :Mistral AI的开源MoE大模型Mistral 8x7B的磁力链接
而2月26日发布的Mistral Large,则直接叫板GPT-4,在MMLU (一个包含57个多选问答任务的英文评测数据集,是目前主流的LLM评测数据集)测试中的成绩仅次于GPT-4 ,成为世界上排名第二的可通过 API 普遍使用的模型。
图3:GPT-4、Mistral Large(预训练)、Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B 在 MMLU 上的比较
Mistral Large 具有新的功能和优势:
它的母语是流利的英语、法语、西班牙语、德语和意大利语,对语法和文化背景有细致入微的理解。
其32K 标记上下文窗口允许从大型文档中精确调用信息。
其精确的指令遵循使开发人员能够设计他们的审核策略——我们用它来设置 le Chat 的系统级审核。
它本身就能够进行函数调用。这与在 la Plateforme 上实施的受限输出模式一起,实现了大规模应用程序开发和技术堆栈现代化。
如今,Mistral AI的估值已超过20亿欧元(约合156.2亿元人民币)。
二、GPT-4的“劲敌”与“平替”
根据Mistral AI官网介绍,Mistral Large在知识推理、多语言能力、数学与编码等多方面的性能都直逼GPT-4,成为了GPT-4不容小觑的劲敌。
(一)推理和知识
Mistral Large展现出强大的推理能力。下图是Mistral Large预训练模型在标准基准上的性能。
图 4:市场上领先的 LLM 模型在广泛常识、推理和知识基准上的表现:MMLU(测量理解中的大规模多任务语言)、HellaSwag(10-shot)、Wino Grande(5-shot)、Arc Challenge(5 次)、Arc Challenge(25 次)、TriviaQA(5 次)和 TruthfulQA。
(二)多语言能力
Mistral Large 具有本地多语言能力。它在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中明显优于 LLaMA 2 70B。
图 5:Mistral Large、Mixtral 8x7B 和 LLaMA 2 70B 在 HellaSwag、Arc Challenge 和 MMLU 上法语、德语、西班牙语和意大利语的比较
(三)数学与编码
Mistral Large 在编码和数学任务中表现出顶尖的性能。在下表中,我们报告了一系列流行基准的性能,以评估一些顶级 LLM 模型的编码和数学性能。
图 6:市场上领先的 LLM 模型在流行编码和数学基准上的性能:HumanEval pass@1、MBPP pass@1、Math maj@4、GSM8K maj@8和 GSM8K maj@1
在性能上叫板GPT-4 的同时,Mistral Large的应用成本更为低廉。目前,查询 Mistral Large 的成本为每百万个输入代币 8 美元,每百万个输出代币 24 美元。在人工语言术语中,标记代表小块的单词——例如,当人工智能模型处理时,单词“TechCrunch”将被分成两个标记,“Tech”和“Crunch”。
默认情况下,Mistral AI 支持 32k 个标记的上下文窗口(通常超过 20,000 个英语单词)。作为比较,GPT-4 Turbo 具有 128k 代币上下文窗口,目前每百万个输入代币的成本为 10 美元,每百万个输出代币的成本为 30 美元。因此,Mistral Large 目前比 GPT-4 Turbo 便宜 1.25 倍,成为了GPT-4 Turbo的“平替”。这对于使用量巨大的企业用户而言可以节省很大一笔开支。
图7:Mistral Large与GPT-4及其同源产品的成本比较
除了 Mistral Large 之外,这家初创公司还推出了自己的 ChatGPT 替代品,即 Le Chat 的新服务。该聊天助手目前处于测试阶段。该公司还计划为企业客户推出Le Chat的付费版本。除了集中计费之外,企业客户还能够定义审核机制。
不仅如此,Mistral AI 的商业模式看起来也越来越像 OpenAI 的商业模式。目前,该公司的模型不再像成立初时完全开源,而是通过付费 API 提供 Mistral Large,并根据使用情况进行定价。Mistral Large可通过 la Platform 获取,也可以在 Azure AI 上使用。其中,La Plateforme这一接入点安全托管在欧洲的 Mistral 基础设施上,使开发人员能够在模型范围内创建应用程序和服务;同时该模型也可通过Azure AI Studio 和 Azure 机器学习使用。
三、与微软的双向赋能
Mistral的先进模型资源将安放在微软云中,使其成为全球第二家在微软Azure上提供商业AI模型的公司。
Mistral AI与微软的合作重点关注三个核心领域:
超级计算基础设施:微软将通过 Azure AI 超级计算基础设施来支持 Mistral AI,为 Mistral AI 旗舰模型的 AI 训练和推理工作负载提供一流的性能和规模。
扩展到市场:微软和 Mistral AI 将通过Azure AI Studio和Azure 机器学习模型目录中的模型即服务 (MaaS) 向客户提供 Mistral AI 的高级模型。除了 OpenAI 模型之外,模型目录还提供开源和商业模型的多种选择。用户可以使用Microsoft Azure 消费承诺 (MACC)来购买 Mistral AI 的模型。Azure 的 AI 优化基础设施和企业级功能为 Mistral AI 提供了向全球 Microsoft 客户推广、销售和分发其模型的额外机会。
人工智能研究和开发:微软和 Mistral AI 将探索围绕为特定客户(包括欧洲公共部门工作负载)培训特定目的模型的合作。
对此,Mistral AI 首席执行官Arthur Mensch表示,与微软的合作使 Mistral AI 能够访问Azure ,推动其创新研究和实际应用程序向世界各地的新客户发展,加速下一代大型语言模型 (LLM) 的开发和部署,为 Mistral AI 提供了释放新商业机会、扩展到全球市场的机会,并促进持续的研究合作。
这不仅是Mistral AI迈向商业化的重要一步,同时也是微软在AI领域深化布局的又一力证。对于微软而言,和Mistral AI的开放合作伙伴关系策略是让 Azure 客户留在其产品生态系统中的好方法。此外,微软与OpenAI多年的关系已经吸引了美国和欧洲反垄断监管机构的审查,与Mistral AI等大模型公司的合作无疑可以“分散火力”。当前,微软正积极探索在其云计算平台上与其他人工智能模型点合作可能。例如,Microsoft 和 Meta合作在 Azure 上提供 Llama 大型语言模型。
事实上,Mistral AI的在研产品不止于Mistral Large。
Mistral AI 的模型产品主要分为Mistral Small、Mistral Large、Mistral Embed三类。其中,Mistral Small受益于与 Mistral Large 在 RAG 启用和函数调用方面相同的创新,主要提供针对低延迟工作负载的经济高效推理;Mistral Large主要用于处理高复杂性任务的顶级推理;Mistral Embed则主要用于提取文本摘录表中最先进的语义。