Transformer还不够好,它的作者决定让大模型自主进化

为了让大模型能更好地在日语环境下解答数学题,该公司将擅长日语的大模型(Shisa-Gamma,由Mistral-7B-v0.1微调而来),与擅长英语数学的大模型(WizardMath和Abel,均由Mistral-7B-v0.1微调而来),融合进化了上百次,迭代出70亿参数规模的EvoLLM-JP,其在基准测试中的表现,超过了之前700亿参数规模的SOTA日语大型语言模型。

让大模型自己动手,好过让人类动手。黄仁勋对话Transformer八子时,最后一位离开谷歌的论文作者Llion Jones,相信这是大模型技术的关键趋势。他还卖了个关子,预告他创立的Sakana AI马上就有大动作。

21日当日,该公司就发布了EvoLLM系列模型,即一系列采用了进化模型融合技术(Evolutionary Model Merge)的大模型,覆盖文字、视觉与图像等多种模态。

Llion Jones是个取名的“鬼才”,著名论文标题《Attention is All You Need》就由他贡献。他为自己的公司取的名字,同样意蕴丰富,暗示不断融合进化的“集体智能”

Sakana是日语“鱼”的意思,鱼群的行为复杂而协调;复杂而强大的人工智能系统,也可以由很多简单的模块融合进化而成。AI的鱼群正在形成。Llama、Mistral等开源基础模型,被扩展和微调成数百个不同的方向,产生了各自领域里表现出色的新模型。当前的Open LLM排行榜,已经由各种融合模型主导。Hugging Face上已有超过50万个模型,它们已经构成了丰富的生态,也可以进化出集体智能。

但传统的模型融合技术,往往依赖于人类的直觉和领域知识,这种方法不仅耗时耗力,而且受限于人类专家的知识和经验。随着开源模型数量的增加,手动探索所有可能的模型组合变得不切实际。

于是,Sakana AI提出了进化模型融合技术,一种利用进化算法来自动发现如何将多个不同的开源模型有效地组合在一起的技术。它的关键就在于“进化”与“融合”。

进化算法,是一种模仿自然界中生物进化过程的计算方法,可以自动地找到最优的解决方案。如果要设计一辆能够在比赛中跑得尽可能远的汽车,但又没有组装的蓝图,算法就会随机地拼凑出很多不同的汽车设计,就像是闭着眼睛从一堆汽车零件中随便抓取一些零件来组装一样。

很多汽车很快就失败了,因为它们的设计并不合理;但总有一些汽车能够勉强前进,于是算法决定只保留那些能够前进的汽车设计,并将它们的特点“遗传”给下一代汽车。经过很多代的迭代后,算法最终会得到一辆性能非常出色的汽车。

“融合”则有两种主要方式。一种是从数据流空间(Data Flow Space)入手,一种是从参数空间(Parameter Space),也就是权重入手。

数据流空间的融合,是通过进化来发现不同模型层的最佳组合,形成全新的模型架构,以处理更复杂多样的任务。就像是拼一个新的乐高机器人,你需要从不同的乐高套装中,挑选出合适的部件(层),让它既能走路,还能抓取,甚至对话。不同的组合关系数量巨大,大模型可以做得比人类更好。

参数空间的融合,则是混合来自不同模型的权重,微调成新的模型,更好地完成任务。每一层的混合比例都可以不一样。就像是调节乐高机器人部件之间的连接点,让它的手臂更灵活一点,脚踝更稳定一点。在这个过程中,你可能需要尝试成百上千种不同的调整方式。让大模型利用进化方法,可以比人类更有效地找出最佳的混合策略。‍

数据流空间和参数空间方法也可以组合在一起。整个过程不需要从头开始设计每一个部件,而是利用现有的AI模型作为“部件”,通过不断融合“试错”,进化出最佳的组合。

它不需要任何梯度训练,计算资源与开发时间大大减少,能够加速人工智能的部署与应用。这些新的融合模型,能够解决更专业复杂的综合任务,或提升对特定场景的适用性,甚至诞生人类专家可能未曾想到的新能力。以往,想让专业领域相距较远的专家聚在一起,用各自的语言碰撞出全新的模型非常困难。

进化模型融合技术还具备通用性,可以扩展至不同模态。Sakana AI的总部位于日本,该公司利用它们的进化模型融合技术,为这个错过了移动互联网时代的国家,生成了日语友好的大型语言模型(EvoLLM-JP)、视觉语言模型(EvoVLM-JP)与图像生成模型(EvoSDXL-JP)

为了让大模型能更好地在日语环境下解答数学题,该公司将擅长日语的大模型(Shisa-Gamma,由Mistral-7B-v0.1微调而来),与擅长英语数学的大模型(WizardMath和Abel,均由Mistral-7B-v0.1微调而来),融合进化了上百次,迭代出70亿参数规模的EvoLLM-JP,其在基准测试中的表现,超过了之前700亿参数规模的SOTA日语大型语言模型。

基于MGSM-JA数据集的测评结果。模型1~3为原始模型;模型4~6为进化融合模型,其中PS为参数空间融合,DFS为数据流空间融合;模型7~10为对比的现有高性能LLM。

让大模型自己找出解决问题的最佳方法的时代正在到来。从手动标记“特征工程”跨越到自动学习特征,人工智能的发展已经印证过这一点。ChatGPT刚推出的时候,人们预测,未来人人都是提示工程师,但最新研究显示,在很多情况下,由大模型自动生成的提示的效果,要比人类反复试验找到的最佳提示更好。

进化模型融合技术正是这一技术趋势的延伸。以往,生物智能所积累的知识、经验与研究范式,以教学等方式,低效甚至有损地传递给少数群体;未来,越来越多生物智能将被训练成各种各样的大模型,以数字智能与集体智能的方式,不断融合进化,迅速部署到它需要出现的场景之中。

辛顿(Geoffrey Hinton)认为,机器智能超过生物智能之处,就在于各智能体之间能更高效地交流参数和梯度,学习效率高于人类之间的知识传授。EvoLLM系列模型的推出,加速了机器智能的进化。

论文:Evolutionary Optimization of Model Merging Recipes,arXiv:2403.13187

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月25日
下一篇 2024年3月26日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日