全球最强开源模型一夜易主:1000万美元、2个月肝出来

全球最强开源模型,一夜易主!

刚刚,超级独角兽Databricks重磅推出1320亿参数的开源模型——DBRX。它采用了细粒度MoE架构,而且每次输入仅使用360亿参数,实现了更快的每秒token吞吐量。

这种独特的MoE架构,让DBRX成为开源模型的SOTA,推理速度比LLaMA 2-70B快了2倍!

最重要的是,训练成本直接砍半!只用了1000万美元和3100块H100,Databricks就在2个月内肝出了DBRX。比起Meta开发Llama2所用的成本和芯片,这只是很小的一部分。

DBRX在语言理解、编程、数学和逻辑方面轻松击败了开源模型LLaMA2-70B、Mixtral以及Grok-1。

甚至,DBRX的整体性能超越GPT-3.5。尤其在编程方面,完全击败了GPT-3.5。

并且,DBRX还为开放社区和企业提供了仅限于封闭模型的API功能。现在,基本模型(DBRX Base)和微调模型(DBRX Instruct)的权重,已经在Hugging Face开放许可了。

从今天开始,Databricks客户就可以通过API使用DBRX。它在Macbook  Pro上都可跑,LLM很快能为个人设备提供支持了。

Pytorch之父Soumith Chintala对最新的开源模型DBRX也是非常看好。

从Mistral、到Grok-1,再到DBRX,MoE架构的模型正在占领开源界。

而Databricks的员工激动地表示,过去3个月,朋友们周末约我都说“不行,这周不行我有事,但是又不能说有啥事”的日子终于结束了,DBRX就是我们加班加点搞出来的一头“怪兽”。

还有网友表示,“如果实验室继续开源大型MoE模型,英伟达可能就需要推出最强Blackwell架构的消费级GPU了”。

一、全球最强开源模型易主

DBRX是一种基于Transformer纯解码器的大模型,同样采用下一token预测进行训练。它采用的是细粒度专家混合(MoE)架构,也就是具有更多的专家模型。

是的,这次立大功的,依然是MoE。在MoE中,模型的某些部分会根据查询的内容启动,这就大大提升了模型的训练和运行效率。

DBRX大约有1320亿个参数,Llama 2有700亿个参数,Mixtral 有450亿个,Grok有3140亿个。

但是,DBRX处理一个典型查询,平均只需激活约360亿个参数。这就提高了底层硬件的利用率,将将训练效率提高了30%到50%。不仅响应速度变快,还能减少所需的能源。

而与Mixtral、Grok-1等其他开源MoE模型相比,DBRX使用了更多的小型专家。

具体来说,DBRX有16个不同的专家,在每层为每个token选择4个专家。Mixtral和Grok-1有8个专家,一个路由网络在每层为每个token选择2个专家。

显然,DBRX提供了65倍的专家组合可能性,能够显著提升模型质量。

此外,DBRX还使用了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA),并使用tiktoken存储库中提供的GPT-4分词器。

DBRX模型在12万亿Token的文本和代码进行预训练,支持的最大上下文长度为32k。

研究人员估计,这些数据比用来预训练MPT系列模型的数据至少好2倍。

这个新的数据集,使用全套数据库工具开发,包括用于数据处理的ApacheSpark™和Databricks笔记本,用于数据管理和治理的Unity Catalog,以及用于实验追踪的MLFlow。

团队使用了“课程学习”(curriculum learning)进行预训练,并在训练过程中改变数据组合,大大提高了模型质量。

那么,DBRX究竟表现如何?

1. 击败2.4倍参数的Grok-1

如下表1,在综合基准、编程和数学基准以及MMLU上,DBRX Instruct刷新了开源AI的SOTA。

(1)综合基准

研究人员在两个综合基准上对DBRX Instruct和其他开源模型进行了评估,一个是Hugging Face的Open LLM Leaderboard,另一个是Databricks Model Gauntlet。

Databricks Model Gauntlet由30多项任务组成,涵盖了6个类别:世界知识、常识推理、语言理解、阅读理解、符号问题解决和编程。

就综合基准来看,DBRX Instruct超越了所有聊天、指令调优的模型。

(2)编程和数学基准

DBRX Instruct在编程和数学方面尤为突出。

它在HumanEval以及GSM8k上,得分均高于其他开源模型。

在编程基准上,DBRX Instruct得分为70.1%,Grok-1为63.2%,LLaMA2-70B Chat为32.2%。在数学基准上,DBRX Instruct为66.9%,Grok-1为62.9%,LLaMA2-70B Base为54.1%。

尽管Grok-1的参数是DBRX的2.4倍,但DBRX在编程和数学方面的性能,均超越了排名第二的Grok-1。

在HumanEval上,DBRX Instruct(70.1%)甚至超过了CodeLLaMA-70B Instruct(67.8%),这是一个专门为编程构建的模型。

在语言理解测试基准MMLU方面,DBRX Instruct得分高于所有模型,为73.7%。

2. 全面超越GPT-3.5

另外,与闭源模型GPT-3.5相比,DBRX Instruct的性能全面超越了它,还可与Gemini 1.0 Pro和Mistral Medium相较量。

具体来说,DBRX Instruct在MMLU的常识知识(73.7% vs. 70.0%)、常识推理HellaSwg(89.0% vs. 85.5%)和WinoGrand(81.8% vs. 81.6%)方面优于GPT-3.5。

在HumanEval(70.1% vs. 48.1%)和GSM8k(72.8% vs. 57.1%)的测试中,DBRX同样在编程和数学推理方面尤其出色。

此外,在Inflection Corrected MTBench、MMLU、HellaSwag以及HumanEval基准上,DBRX Instruct的得分高于Gemini 1.0 Pro。

不过,Gemini 1.0 Pro在GSM8k的表现上,明显更强。

在HellaSwag基准上,DBRX Instruct和Mistral Medium得分相似,而Winogrande和MMLU基准上,Mistral Medium更强。

另外,在HumanEval、GSM8k、以及Inflection Corrected MTBench基准上,DBRX Instruct取得了领先优势。

在Databricks看来,开源模型击败闭源模型非常重要。

在上个季度,团队成员看到自家12,000多名客户群重大转变,即将专有模型替换为开源模型,以提高效率。现在,许多客户可以通过定制开源模型来完成特定任务,从而在质量和速度上超越专有模型。

DBRX的推出,就是为了加速这个过程。

3. 长上下文任务质量和RAG

DBRX Instruct采用高达32K token上下文进行了训练。

表3比较了它与Mixtral Instruct,以及最新版本的GPT-3.5 Turbo和GPT-4 Turbo API,在一套长上下文基准测试上的性能。

毫无疑问,GPT-4Turbo是执行这些任务的最佳模型。但是,除了一个例外,DBRX Instruct在所有上下文长度和序列的所有部分的表现,都优于GPT-3.5 Turbo。

DBRX Instruct和Mixtral Instruct的总体性能相似。

利用模型上下文的最常见的方法之一是,检索增强生成(RAG)

在RAG中,从数据库中检索与提示相关的内容,并与提示一起呈现,从而为模型提供更多信息。

表4显示了DBRX在两个RAG基准测试——Natural Questions和HotPotQA上的质量。

DBRX Instruct与Mixtral Instruct和LLaMA2-70B Chat等开源模型,以及GPT-3.5 Turbo相比,具有很强的竞争力。

4. 训练效率是非MoE模型的两倍

模型质量必须放在模型的训练和使用效率的上下文中,在Databricks尤其如此,研究人员发现训练MoE模型在训练的计算效率方面,提供了实质性的改进(表5)

比如,训练DBRX系列中较小的成员DBRX MoE-B(总参数为23.5B,活跃参数为6.6B)所需的Flop比LLaMA2-13B少1.7倍,才能在Databricks LLM Gauntlet上达到45.5%的得分。

DBRX MOE-B包含的有效参数也是LLaMA2-13B的一半。

从整体上看,端到端LLM预训练pipeline,在过去十个月中的计算效率提高了近4倍。

2023年5月5日,Databricks发布了MPT-7B,这是一个在1T token上训练的7B参数模型,在Databricks LLM Gauntlet上得分为30.9%。

DBRX系列中名为DBRX MoE-A的(总参数为7.7B,活跃参数为2.2B)得分为30.5%,而FLOPS减少了3.7倍。

这种效率是一系列改进的结果,包括使用MoE架构、网络的其他架构更改、更好的优化策略、更好的分词,以及更好的预训练数据。

单独来看,更好的预训练数据对模型质量有很大的影响。

研究人员使用DBRX预训练数据在1T token(称为DBRX Dense-A)上训练了7B模型。在Databricks Gauntlet上得分39.0%,而MPT-7B为30.9%。

研究者估计,全新的预训练数据至少比用于训练MPT-7B的数据高出2倍。换句话说,要达到相同的模型质量,所需的token数要少一半。

进而,研究人员通过在500B token上训练DBRX Dense-A确定了这一点。它在Databricks Gauntlet上的表现优于MPT-7B,达到32.1%。

除了更好的数据质量外,token效率提高的另一个重要原因可能是GPT-4分词器。


5. 推理效率

总体而言,MoE模型的推理速度,它们的总参数所显示的要快。这是因为它们对每个输入使用的参数相对较少。

DBRX推理吞吐量是132B非MoE模型的2~3倍。

推理效率和模型质量通常是相互矛盾的:模型越大通常质量越高,但模型越小推理效率越高。

使用MoE架构可以在模型质量和推理效率之间,实现比密集模型更好的平衡。

通过Mosaic AI Model Serving测量,DBRX生成速度明显快于LLaMA2-70B

比如,DBRX的质量比LLaMA2-70B更高,而且由于活跃参数量大约是LLaMA2-70B的一半,DBRX推理吞吐量最多可快2倍。

Mixtral是MoE模型改进的“帕累托最优”(pareto frontier)另一个点:它比DBRX小,质量相对较低,但实现了更高的推理吞吐量。

在优化的8位量化模型服务平台上,Databricks Foundation Model API推理吞吐量每秒多达150个token。

6. 企业免费用

企业可以在Databricks平台上访问DBRX,能在RAG系统中利用长上下文功能,还可以在自己的私有数据上构建定制的DBRX模型。

而开源社区可以通过GitHub存储库和Hugging Face访问DBRX。

项目地址:https://github.com/databricks/dbrx

项目地址:https://huggingface.co/databricks

因为DATABricks是完全基于数据库来构建DBRX的,因此每个企业用户都可以使用相同的工具和技术来创建或改进自己的定制化模型。

用户可以通过Unity Catalog中集中管理训练数据,使用ApacheSpark和Lilac AI提供的工具和服务进行处理和清理。

大规模的模型训练和微调由DataBricks前不久刚刚收购的Mosaic AI提供的服务。对齐问题,也可以通过的他们的平台和服务解决。

纳斯达克,埃森哲等客户和合作伙伴已经用上了这一套服务和工具。


二、收购估值13亿公司,2个月“肝”出来

外媒Wired的一篇报道,为我们详述了世界最强开源模型的诞生过程。

此前,Databricks在业界已经小有名声。

在本周一,Databricks的十几位工程师和高管,在会议室等待着最终的结果——团队花费了数月时间,投入了大概1000万美元训练的LLM,会取得怎样的成绩?

显然,能力测试最终结果出来之前,他们并不知道自己创造的模型有这么强大。

“我们超越了所有模型!”随着首席神经网络架构师、DBRX团队负责人Jonathan Frankle宣布这一结果,成员们爆发出热烈的欢呼和喝彩声。

是的,DBRX就是这样超越了Llama 2、Mixtral这两个如今最流行的开源模型。

甚至马斯克的xAI最近开源的Grok AI,也被DBRX打败了。Frankle开玩笑说:如果收到马斯克发出的一条刻薄的推特,我们就铁定成功了。

最令团队感到惊讶的是,DBRX在多项指标上甚至接近了GPT-4这个机器智能的巅峰之作。

毫无疑问,DBRX现在为开源LLM设立了全新的技术标准。

1. 独角兽重振开源界

通过开源DBRX,Databricks进一步推动了开源运动,加入了Meta对抗OpenAI和谷歌的开源大潮。

不过,Meta并没有公布Llama 2模型的一些关键细节,而Databricks会将最后阶段做出关键决策的过程全部公开,要知道,训练DBRX的过程,耗费了数百万美元。

艾伦人工智能研究所的CEO AliFarhadi表示,AI模型的构建和训练,亟需更大的透明度。

Databricks有理由选择开源。尽管谷歌等巨头过去一年里部署了AI,但行业内的许多大公司,还还没有在自己是数据上广泛使用大模型。

在Databricks看来,金融、医药等行业的公司渴望类似ChatGPT的工具,但又担心将敏感数据发到云上。

而Databricks将为客户定制DBRX,或者从头为他们的业务量身定做。对于大公司来说,构建DBRX这种规模模型的成本非常合理。

“这就是我们的大商机。”为此,Databricks去年7月收购了初创公司MosaicML,引入了Frankle在内的多名技术人才。此前,两家公司内都没人构建过如此大的模型。


2. 内部运作

OpenAI等公司,执着地追求更大的模型。但在Frankle看来,LLM重要的不仅仅是规模,怎样让成千上万台计算机通过交换机和光缆巧妙地连接在一起并且运转起来,尤其具有挑战性。

而MosailML公司的员工,都是这门晦涩学问的专家,因此Databrick去年收购它时,对它的估值高达13亿美元。

另外,数据对最终结果也有很大影响,或许也是因此,Databricks并没有公开数据细节,包括数据的质量、清洗、过滤和预处理。

Databricks副总裁、MosaicML创始人兼CEO Naveen Rao表示:“你几乎可以认为,这是模型质量的重中之重。”

3. 价值数百万美元的问题

有时候,训练一个庞大AI模型的过程不仅考验技术,还牵涉到情感上的抉择。

两周前,Databricks的团队就遇到了一个涉及数百万美元的棘手问题:如何充分利用模型的潜能。

在租用的3072个强大英伟达H100 GPU上训练模型两个月后,DBRX在多个基准测试中已经取得了卓越的成绩。但很快,他们可以使用的时间只剩下了最后一周。

团队成员在Slack上互抛主意,其中一个提议是制作一个专门生成计算机代码的模型版本,或者是一个小型版本供业余爱好者尝试。

团队还考虑了不再增加模型的大小,转而通过精心挑选的数据来提升模型在特定功能上的表现,这种方法称为课程学习。或者,他们可以继续按原计划扩大模型的规模,希望使其变得更加强大。

最后这种做法被团队成员亲切地称为“随它去”选项,似乎有人对此格外情有独钟。

虽然讨论过程中大家都保持了友好,但随着各位工程师为自己青睐的方案力争上游,激烈的观点交锋不可避免。

最终,Frankle巧妙地将团队的方向引向了以数据为中心的方法(课程学习)。两周后,这个决定显然带来了巨大的回报。

然而,对于项目的其他预期成果,Frankle的判断就没那么准确了。他原本认为DBRX在生成计算机代码方面不会有特别突出的表现,因为团队并没有将重点放在这一领域。

他甚至信心满满地表示,如果自己判断错误,就会把头发染成蓝色。然而,周一的结果却显示,DBRX在标准的编码基准测试上胜过了所有其他开源AI模型。

“我们的模型代码能力非常强。”他在周一的成果发布会上说道,“我已经预约了今天去染发。”

4. 风险评估

最后还有一个问题,就是开源模型的风险。

DBRX是迄今最强的开源大模型,任何人都可以使用或修改。这是否会带来不可预知的风险,比如被网络犯罪或者生化武器滥用?

Databricks表示,已经对模型进行了全面的安全测试。

Eleuther AI的执行主任Stella Biderman说,几乎没有证据表明开源会增加安全风险。“我们并没有特别的理由相信,开放模型会比现有的封闭模型大幅增加风险。”

此前,EleutherAI曾与Mozilla以及其他约50个组织和学者一道,向美国商务部长雷蒙多发出了一封公开信,要求她确保未来的人工智能监管为开源AI项目留出足够的发展空间。

信中专家们相信,AI开源有利于经济增长,因为它们有助于初创企业和小企业接触到这项突破性的进展,还有助于加速科学研究。

而这也是Databricks希望DBRX能够做出的贡献。

Frankle说,DBRX 除了为其他人工智能研究人员提供了一个新的模型和构建自己模型的有用技巧外,还有助于加深对AI实际工作原理的理解。

Databricks团队计划研究模型在训练的最后阶段是如何变化的,也许能揭示一个强大的模型是如何涌现出额外能力的。

参考资料:

https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/

https://twitter.com/databricks/status/1772957294805856265?t=yM4Rma8C9RQPCmf0YoopMw&s=19

https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

本文来自微信公众号:新智元 (ID:AI_era),作者:新智元

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月28日 15:46
下一篇 2024年3月28日 15:47

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日