不是大模型用不起,而是小模型更有性价比

比如说谷歌DeepMind的Chinchilla模型,其凭借700亿的参数量,在表现上超过了参数量为1750亿的GPT-3。

A.俱乐部

B.礼堂

C.冥想室

D.会议室

E.教堂

教师模型想要得到答案,他需要知道ABCDE这五个地方一般进行什么活动,什么人会去,去了会带些什么做些什么动作,高尔夫球杆在这些地方有没有可能发挥作用,将这些庞大的数据分析后,最终得出结论,只有在俱乐部有可能使用。

到了年末,又到了喜闻乐见的“2024大预测”环节。

今年最热的AI赛道中,机构们自然也得下一些判断,比如说:

2024年大模型的一个趋势,是将变得“越来越小”。

这种趋势其实已经出现一些端倪,在遍地都是千亿级参数量的千模大战下,今年9月,法国AI初创公司发布了Mistral-7B。

身为一个参数量仅为70亿的模型,所有基准性能却都超越了参数量为130亿的Llama 2,公司估值达到22亿美元。

今年12月,谷歌一口气推出了三种规格的Gemini:Ultra、Pro和Nano,其中最小的Nano则准备直接在移动设备上运行,有18亿参数量和32.5亿参数量两个版本。

同时,微软也在12月推出了参数量仅为27亿的模型Phi-2。

它不仅在性能上超越了Mistral-7B,甚至跟参数量700亿版本的Llama 2之间的差距也不大,在一些说明中,其性能已经接近甚至很快会超越自身体量25倍的模型[1]

在这些参数量越来越小的模型一次次震惊AI界之前,大语言模型有一个心照不宣的法则——参数量越大,性能就越好。

毕竟大模型的参数量可以简单理解成“模仿人类大脑的神经元连接”,更多的连接意味着更多的知识储备空间和产生更复杂的思维链条的可能性,所以更大的参数量=更强的性能其实并没有错。

人类的大脑大概有860亿个神经元,能形成差不多100万亿个神经元链接。目前大模型界的扛把子GPT-4,参数量达到了1.76万亿。

即便不能简单换算,但显然即便是GPT-4也还有很大的进步空间。

可怎么明明没达到人脑水平,就要开始降低参数量了?

一、大模型太贵了

这还是要从OpenAI和它的ChatGPT说起,据数据监测网站Down for Everyone or Just Me的记录,从今年11月底至今,ChatGPT已经宕机5次。

11月7日,Open AI首届开发者大会上,一口气公布了GPT-4 Turbo、图像识别、文字转语音、GPTs等重磅功能,跃跃欲试的用户太多,以至于隔天ChatGPT和API就因为服务器超负荷而故障了两个多小时[2]

11月15日,Open AI的CEO奥特曼(Sam Altman)直接宣布暂停新的GPT Plus注册,直到12月中旬才逐步重新开放。

来源:X

这实际上反映的是超大参数量带来的第一个问题:服务器负载

大模型加上大访问量,对算力的需求是个无底洞,据安信证券测算,目前ChatGPT每天所需的算力约50EFLOPs,所需服务器约1万台[3]

若ChatGPT的用户量继续保持上涨,假设到24年底用户数量为5亿,则需要23万台服务器,但2022年全球AI服务器的出货量仅为13万台。

服务器需求分为两方面,一者是包括买GPU在内的动辄七八位数的训练成本,比如据奥特曼透露,GPT-4的开发成本超过1亿美元。

据研究机构Epoch AI统计,训练尖端模型所需的算力每6到10个月就会翻一番[7]

经济学人杂志在这个趋势上进行了推算,如果“10个月翻一番”的理论站得住脚,那到2026年训练一个顶尖模型的成本要超过10亿美元。

在现阶段虽然还有诸多公司愿意为了这个“遥遥领先”的地位去烧钱搏一把,但随着竞争格局逐渐清晰,往死里堆参数的公司显然会越来越少。

这些还都只是一次性开支,咬咬牙也就忍过去了。

真正难以承担的,其实是当模型推出给大众后,日常使用过程中所产生的庞大推理费用。

对于一个大模型来说,回答用户“今天气温多少度”和“如何造一枚原子弹”,假设都只推理一次的情况下,其成本其实是一样的,而前者的需求反而更加庞大。

等于说,科技公司提供了一辆超跑级别的性能野兽,但大多数用户的需求就是拿它送外卖。

大摩也算过一笔账,如果把谷歌当前一半的搜索量交给ChatGPT去处理,那每年要凭空多花60亿美元。

这种成本上的巨大负担,成为了科技公司们另寻它路的首要原因,就像阿尔特曼在今年4月份他在MIT的一次演讲中说[9]

“我们已经到了大模型时代的尽头,是时候想点其他的办法来提升模型性能了。”

比如说,小模型。

二、不是大模型用不起,而是小模型更有性价比

前身是斯坦福AI实验室的Snorkel AI做了一个试验,分别用GPT-3微调和自己搭建小模型的方式去训练一个法律领域的垂直模型。

GPT-3的微调和搭建成本是7418美元,1万次推理花费173美元,而自己搭建小模型的成本仅有1915美元,1万次推理也只要花费0.26美元[8]

而且GPT-3微调出来的垂直模型正确率为71.4%,仅仅比小模型的71.3%好了一点点。看在GPT-3模型参数量是小模型1400倍的份上,表现好也是正常的。

但是抛开表现看一下成本:小模型的建造成本是GPT-3微调的1/4,推理成本是GPT-3微调的1/1000。

在这种级别的成本差异面前,0.1%的差距似乎显得没那么难接受了。

更为关键的是,现在已经有诸多论文详述了“如何在更少参数量的前提下,实现更强的能力。”

比如说谷歌DeepMind的Chinchilla模型,其凭借700亿的参数量,在表现上超过了参数量为1750亿的GPT-3。这里鸡贼的是,Chinchilla的参数量虽然比GPT-3小,但是它的训练语料库却比GPT-3要大5倍。

简单来说,他们的思路是,让每一个参数都变得更有价值

DeepMind团队发现,自己训练了400个模型之后发现了一个规律,为了达到最佳的训练效果,当模型参数量翻倍时,训练语料库也应该翻倍[10]

于是他们遵循这个规律,在1.4万亿个token上训练出来了700亿参数的Chinchilla,语料库的token和参数量比达到了20:1。

而相比之下, Open AI在3000亿个token上训练出来了1750亿参数的GPT-3,语料库的token和参数量比连2:1都没有达到。

DeepMind在更大的语料库上花了更多的时间训练出了Chinchilla,虽然参数量仅有700亿,但这700亿都是精华,由此保障了性能。

还有另一种方式,学术名叫知识蒸馏(Knowledge distillation),咱们俗称“偷师”或者“改进”。

简单来说,这种方式可以高效地将大型复杂模型里的知识,转移到更小更简单的模型中[11]

知识蒸馏的概念也是辛顿教授一篇论文中所提到的,说白了就是让大模型去吸收浩瀚宇宙中的无穷知识,把学出来的结果传授给小模型。

就像牛顿总结出的那些物理学定律一样,咱们作为学生只要拿来应用就行了。

具体来说,比如你给教师模型一道题:有一个人拿着一套高尔夫球杆,那他最有可能去下面哪个地方?

A.俱乐部

B.礼堂

C.冥想室

D.会议室

E.教堂

教师模型想要得到答案,他需要知道ABCDE这五个地方一般进行什么活动,什么人会去,去了会带些什么做些什么动作,高尔夫球杆在这些地方有没有可能发挥作用,将这些庞大的数据分析后,最终得出结论,只有在俱乐部有可能使用。

而学生模型则不需要关于这五个地方的详细信息,教师模型已经给这五个地方分别打好了标签总结出了规律,从而迅速得出结论,只有A选项符合要求。

回答:答案应该是需要用到高尔夫球杆的地方。上述的选择里面,只有俱乐部里能用到,所以我的答案是 A.俱乐部。

学生模型在看到教师模型的回答后,不仅记住了俱乐部跟高尔夫球杆有关联这个知识点,也知道了遇到相似问题的时候的解题思路。

NLP/AI领域的专家猜测,轰动一时的欧洲之光Mistral 7B就是通过知识蒸馏的方式训练出来的。

来源:Medium

虽然Mistral的训练方式目前还是保密的,但是创始人Arthur Mensch在访谈中提到过,在大模型的基础上通过蒸馏和合成数据来训练出质量更高的小模型,这种方法是可行的。

纵观下来,小模型和大模型实际上并不是一种竞争关系,而是面对算力成本和应用推广两大难题下的一种优化合作。

就如同三体人操控地球的方式是阻止基础物理的发展一样,没有大模型奠基,也就没有站在其肩膀上的小模型。

成本问题解决了,实现方法也有了,推理效率还能够保证,剩下的就是商业化的应用场景了。

三、端侧AI,小模型的天堂

相较于千亿参数大模型不得不部署在云端服务器,占用超级计算机的算力,小模型最大的优势实际上是能部署在端侧

比如放进随身携带的手机里,不再占用超算算力降低成本不说,其响应速度完全不在一个量级上。

由于手机芯片在空间上的局限性,其算力上限在摩尔定律尚未被打破前基本是可以算得出来的,想要让AI真正走进千家万户,目前来看只能是将模型瘦身装进手机里最为现实。

对于手机端AI的前景,高通的CEO安蒙(Cristiano Amon)认为[4]:“我们将看到以应用为中心的用户界面发生改变,生成式AI将成为人与应用之间的接口。”

而各家手机厂商确实也是这么做的。

小米放出直接搭载在新一代手机系统中的60亿参数模型,可以回答问题、写文章、写代码、做表格。

Vivo的蓝心小V也是定位为融合到手机系统里的全局智能助理,可以听人话、看文字、读文件,能帮用户做计划定日程[5]

荣耀下一代旗舰机Magic 6直接支持动动嘴皮子,让手机自己去相册找视频素材,剪辑成片的功能。

OppoFind X7也宣布让70亿参数的AndesGPT真正地装进手机,并实现内存和存储空间的进一步优化。

谷歌的Pixel 8 Pro今年12月已经用上了自家的Gemini Nano,不过目前只有两个比较简陋的应用:一是在录音APP里对音频进行自动摘要,二是通过谷歌键盘进行智能回复[6]

2000年前后,用拨号上网下载一个1GB的文件大概要上千元,到了今天1GB的流量在手机上也就几毛钱。这种成本的大幅降低,实际上才是互联网普及的关键。

同理,AI想要普及,问题的关键还是成本。

但恰巧,成本问题是咱们最擅长的环节,看看拼多多、Shein如何做到全球最低价,看看华为是如何让非洲普及5G,看看印度人钟爱小米。

如果说美国最擅长技术上的突破,那么中国最擅长的则是:

让技术带来的普惠走进千家万户。

参考文章:

[1] 微软小模型击败大模型:27亿参数,手机就能跑 | 机器之心

[2] 火成这样?OpenAI暂停新的ChatGPT Plus订阅|华尔街见闻

[3] ChatGPT 提升算力需求增长中枢,超算服务器出货量有望大幅提升|安信证券

[4] 卷生成式AI的旗舰手机,2024年会引发一场交互革命|机器之心

[5] vivo发布蓝心大模型,手机端运行且开源,自研系统亮相 | 机器之心

[6] Google’s Gemini AI model is coming to the Pixel 8 Pro for recording summaries and smart replies | The Verge

[7] The bigger-is-better approach to AI is running out of road | The Economist

[8] Better not Bigger: Distilling LLMs into Specialized Models | Enterprise LLM Summit

[9] Sam Altman: Size of LLMs won’t matter as much moving forward | TechCrunch

[10] Training Compute-Optimal Large Language Models

[11] Introduction to Knowledge Distillation | Deci

[12] Distilling the Knowledge in a Neural Network

本文来自微信公众号:新硅NewGeek(ID:gh_b2beba60958f),作者:刘白,编辑:张泽一

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2023年12月27日
Next 2023年12月28日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日