智驾内卷“全国都能开” 极越纯视觉追求更安全、更舒适

另一方面,在MoE模型被广泛应用的同时,也有部分厂商争先开源了自家的MoE模型。
MoE模型火爆的背后:全新的AI解题思路
客观来说,MoE模型的具体工作原理更接近中国的一句古语“术业有专攻”,通过把任务分门别类,然后分给多个特定的“专家”进行解决。
各大厂商争先开源MoE模型:解决AI算力荒的另一条路径
开源的意义在于让MoE模型更好的普及。

文 | 智能相对论

作者 | 陈泊丞

今年以来,MoE模型成了AI行业的新宠儿。

一方面,越来越多的厂商在自家的闭源模型上采用了MoE架构。在海外,OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架构。

而在国内,昆仑万维推出的天工3.0、浪潮信息发布的源2.0-M32、通义千问团队发布的Qwen1.5-MoE-A2.7B、MiniMax全量发布的abab6、幻方量化旗下的DeepSeek发布的DeepSeek-MoE 16B等等也都属于MoE模型。

另一方面,在MoE模型被广泛应用的同时,也有部分厂商争先开源了自家的MoE模型。前不久,昆仑万维宣布开源2千亿参数的Skywork-MoE。而在此之前,浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等,也都纷纷开源。

为什么MoE模型如此火爆,备受各大厂商的青睐?在开源的背后,MoE模型又是以什么样的优势使各大主流厂商成为其拥趸,试图作为改变AI行业的利器?

MoE模型火爆的背后:全新的AI解题思路

客观来说,MoE模型的具体工作原理更接近中国的一句古语“术业有专攻”,通过把任务分门别类,然后分给多个特定的“专家”进行解决。

它的工作流程大致如此,首先数据会被分割为多个区块(token),然后通过门控网络技术(Gating Network)再把每组数据分配到特定的专家模型(Experts)进行处理,也就是让专业的人处理专业的事,最终汇总所有专家的处理结果,根据关联性加权输出答案。

当然,这只是一个大致的思路,关于门控网络的位置、模型、专家数量、以及MoE与Transformer架构的具体结合方案,各家方案都不尽相同,也逐渐成为各家竞争的方向——谁的算法更优,便能在这个流程上拉开MoE模型之间的差距。

像浪潮信息就提出了基于注意力机制的门控网络(Attention Router),这种算法结构的亮点在于可以通过局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),率先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,从而更好地匹配专家模型,保证了专家之间协同处理数据的水平,促使模型精度得以提升。

抛开目前各家厂商在算法结构上的创新与优化不谈,MoE模型这种工作思路本身所带来的性能提升就非常显著——通过细粒度的数据分割和专家匹配,从而实现了更高的专家专业化和知识覆盖。

这使得MoE模型在处理处理复杂任务时能够更准确地捕捉和利用相关知识,提高了模型的性能和适用范围。因此,「智能相对论」尝试了去体验天工3.0加持的AI搜索,就发现对于用户较为笼统的问题,AI居然可以快速的完成拆解,并给出多个项目参数的详细对比,属实是强大。

由此我们可以看到,AI在对比两款车型的过程中,巧妙地将这一问题拆解成了续航里程、动力性能、外观设计、内饰设计、智能化与自动驾驶、市场表现与用户口碑、价格等多个项目,分别处理得出较为完整且专业的答案。

这便是“术业有专攻”的优势——MoE模型之所以受到越来越多厂商的关注,首要的关键就在于其所带来的全新解决问题的思路促使模型的性能得到了较为显著的提高。特别是伴随着行业复杂问题的涌现,这一优势将使得MoE模型得到更广泛的应用。

各大厂商争先开源MoE模型:解决AI算力荒的另一条路径

开源的意义在于让MoE模型更好的普及。那么,对于市场而言,为什么要选择MoE模型?

抛开性能来说,MoE模型更突出的一点优势则在于算力效率的提升。

DeepSeek-MoE 16B在保持与7B参数规模模型相当的性能的同时,只需要大约40%的计算量。而37亿参数的源2.0-M32在取得与700亿参数LLaMA3相当性能水平的同时,所消耗的算力也仅为LLaMA3的1/19。

也就意味着,同样的智能水平,MoE模型可以用更少的计算量和内存需求来实现。这得益于MoE模型在应用中并非要完全激活所有专家网络,而只需要激活部分专家网络就可以解决相关问题,很好避免了过去“杀鸡用牛刀”的尴尬局面。

举个例子,尽管DeepSeek-MoE 16B的总参数量为16.4B,但每次推理只激活约2.8B的参数。与此同时,它的部署成本较低,可以在单卡40G GPU上进行部署,这使得它在实际应用中更加轻量化、灵活且经济。

在当前算力资源越来越紧张的“算力荒”局面下,MoE模型的出现和应用可以说为行业提供了一个较为现实且理想的解决方案。

更值得一提的是,MoE模型还可以轻松扩展到成百上千个专家,使得模型容量极大增加,同时也允许在大型分布式系统上进行并行计算。由于各个专家只负责一部分数据处理,因此在保持模型性能的同时,又能显著降低了单个节点的内存和计算需求。

如此一来,AI能力的普惠便有了非常可行的路径。这样的特性再加上厂商开源,将促使更多中小企业不需要重复投入大模型研发以及花费过多算力资源的情况下便能接入AI大模型,获取相关的AI能力,促进技术普及和行业创新。

当然,在这个过程中,MoE模型厂商们在为市场提供开源技术的同时,也有机会吸引更多企业转化成为付费用户,进而走通商业化路径。毕竟,MoE模型的优势摆在眼前,接下来或许将有更多的企业斗都会尝试新的架构来拓展AI能力,越早开源越能吸引更多市场主体接触并参与其中。

但是,开源最关键的优势还是在于MoE模型对当前算力问题的解决。或许,随着MoE模型被越来越多的企业所接受并应用,行业在获得相应AI能力的同时也不必困顿于算力资源紧张的问题了。

写在最后

MoE大模型作为当前人工智能领域的技术热点,其独特的架构和卓越的性能为人工智能的发展带来了新的机遇。不管是应用还是开源,随着技术的不断进步和应用场景的不断拓展,MoE大模型有望在更多领域发挥巨大的潜力。

MoE模型的本质在于为AI行业的发展提供了两条思路,一是解决应用上的性能问题,让AI有了更强大的解题思路。二是解决算力上的欠缺问题,让AI有了更全面的发展空间。由此来看MoE模型能成为行业各大厂商的宠儿,也是水到渠成的事情。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年7月11日
下一篇 2024年7月11日

相关推荐

  • 县城消费的另一面:喝奶茶的少了,钓鱼的多了

    图源:作者拍摄

    图源:作者拍摄
    刘子涵继续说道,现在同学之所以不愿意喝新茶饮,还有一部分原因是,学生们对新茶饮的口感愈发失去新鲜感。

    图源:作者拍摄
    但并不是所有县城零食折扣店都这么火爆,中秋节假日当晚当地赵一鸣零食折扣店偌大的门店看不到太多顾客,收银台前也仅有几个顾客在排队结算。

    图源:受访者提供

    有人为钓鱼投入千元,有人干起代购
    和新茶饮相对冷清、零食折扣店门店客流分化不同的是,部分业态在县城仍迎来火爆。

    9小时前
  • 闪回科技二度冲刺港股,深陷盈利困境,雷军看走眼了?

    在回收生意的上游,闪回科技通过闪回收从消费电子厂商、零售商、运营商以及C端消费者处获取二手手机供给。
    在下游销售端,闪回科技以“闪回有品”面向B端商户和消费者进行二手机和新机的销售,公司接近90%营收由闪回有品贡献。”

    B端渠道的手机厂商是闪回科技高增长最大的助力,但与之相伴的是,面对强势的手机大厂,闪回科技没有议价权,还需要向手机厂商支付高昂的保证金和促销服务费。

    9小时前
  • 极越:找回失去的三年

    成立三年来,极越的表现与预期存在落差,极越07就是那个能让他翻身的机会。一直以来,极越都缺乏知名度,当小米汽车发布后,这一点显得更明显,夏一平的观点虽然有待商榷,但提高了极越的热度。在夏一平看来,极越07的对手是特斯拉,他直言我们做了一辆特斯拉还没有做出来的车。3、极客007都是极越07的竞品,其中小米SU7也提供400V和800V两个选项,但它的售价比极越07高。

    9小时前
  • 中信建投与中信证券差距拉大,大型券商重组拉开序幕

    3、与中信证券差距拉大,大型券商重组拉开序幕
    中信建投投行收入持续下滑已成固定事实,在此影响下,中信建投归母净利润自2021年突破百亿元以后便连续下滑。2022年及2023年分别下降26.56%、6.45%,2024年上半年再度下滑33.66%.
    2021年,中信建投利润相当于中信证券利润的43.91%,2024年上半年则下降至26.93%,这也意味着中信建投与中信证券差距正在拉大。

    9小时前
  • 天猫商家注意!将限制商品体验分低于60分商品参加营销活动

    早在7月,淘宝教育联合淘天集团各业务团队推出直播,淘天集团体验分运营负责人驷石分享策略,称对于商品体验指数小于70分的商家,可能影响商品转化、点击和后续运营。
    今年7月,淘天集团在618结束后召开了一场商家闭门会,会上明确了将于下半年开始正式实施的几个变化,此外,下半年,影响店铺层级、搜索流量的不再是单一指标,店铺体验分会非常重要,例如用PXI(商品体验指数)指标完全取代DSR(店铺评分指数),成为影响搜索权重的指标,目前已经处于灰测阶段。

    商业密码 9小时前
  • 身陷“百模大战”,云天励飞毛利率大幅下滑

    上市以后,云天励飞并没有改变亏损局面,2023年云天励飞净亏损3.83亿元。
    2、身陷“百模大战”,云天励飞毛利率断崖式下滑
    2023年是AI爆发的元年,云天励飞是A股为数不多同时拥有大模型及人工智能芯片的企业,具有一定的稀缺性。2021年-2023年,云天励飞研发支出分别为2.95亿元、3.47亿元、2.95亿元,这对于年营收仅5亿元的企业而言不可谓不多,这也是云天励飞持续亏损的重要原因。

    9小时前
  • 又是代工惹的祸,奶酪博士产品吃出异物遭维权

    1、奶酪博士品控遭质疑:代工模式不完全靠谱
    今年8月份,一位消费者在小红书上发文公布了“奶酪博士冻干奶酪块有毛处理结果后续”,原来是今年6月份,该消费者购买了奶酪博士的冻干奶酪产品,购买价格59.44元,但在食用中却发现奶酪中存在异物。
    2、商业诋毁纠纷阴霾仍在,奶酪博士近期成被执行人
    天眼查显示,奶酪博士(安徽)食品科技有限公司、奶酪博士(上海)科技有限公司这两家公司在今年7月11日成为了被执行人,执行法院为上海市奉贤区人民法院,但执行标的是0元。

    9小时前
  • 拒绝低价,喜茶说了算?

    一线城市增长乏力,下沉市场阻力明显增加的市场背景下,未来新茶饮赛道很大概率会出现中小品牌为了市场规模持续混战的情况,而在多品牌内卷的行业环境下,低价竞争虽然能够稳固市场份额,但更考验品牌的现金供应和管理能力。
    惊蛰研究所在《2024新茶饮:不卷产品,卷周边》提到,除了在产品本身上不断创新外,新茶饮品牌们在周边产品和服务上下足了功夫,忙着联名和设计周边,部分新茶饮品牌几乎每个月都会推出至少一款联名产品,以此寻找新的增长点和突破口。

    商业密码 9小时前
  • 抖音网红,一直塌方?

    东北顶流,9场直播卖出5000万

    东北雨姐,是名副其实的东北顶流。

    2024,抖音达人“塌房之年”

    2024年以来,多名抖音网红频繁陷入争议中,他们中有人致歉掉粉,也有人宣布退网,还有人被平台封禁了账号,堪称是网红达人的塌房之年。

    事件发酵后,“空空日记”的行为遭到了多方指责和抨击,随后“空空日记”发布道歉视频,表示“今后会努力提升个人素质,规范自己的言行”。

    9小时前
  • 科大讯飞还是AI“小甜甜”吗?

    到了2024年,按照科大讯飞董事长刘庆峰和总裁吴晓如的综合表态可知,科大讯飞在2023年已经成为中国大模型第一梯队,在2024年要实现100万生态、1000万硬件终端、1亿软件用户。

    科大讯飞的开放平台,即为开发者提供AI能力及一站式人工智能解决方案,在讯飞星火大模型的加持下,2024上半年,业务收入23.45亿元,同比增长47.92%,延续了2023年该业务的较好表现。

    9小时前