大模型端侧部署,我们来聊点不一样的

 
在手机和PC厂商的叙事中,端侧AI不仅能够提升日常使用及办公效率,还是隐私保护和数据安全的最优解,甚至有厂商指出,端侧AI可以让每个用户拥有属于自己的“个人大模型”。
 
以小博大,未尝不可
 
今年2月,面壁智能发布了20亿参数的开源端侧模型MiniCPM,在多个主流评测榜单中,该模型中英文分均超过Mistral-7B开源模型,甚至优于Llama。

从去年下半年开始,几乎所有硬件厂商都达成了一项默契:抱紧AI。

 

手机厂商认为这是继功能机和智能机后的“第三次变革”;PC厂商则要更加兴奋,因为他们所在的行业,过去十余年间都未曾感受过技术变革带来的红利。在一票大语言模型的带动下,“端侧AI”开始反复被提及,尽管这个概念诞生还不满一年。

 

在手机和PC厂商的叙事中,端侧AI不仅能够提升日常使用及办公效率,还是隐私保护和数据安全的最优解,甚至有厂商指出,端侧AI可以让每个用户拥有属于自己的“个人大模型”。

 

暂且不说这些理念是否存在“先射箭子后画靶子 ”之嫌,一个需要被前置讨论的问题是:大模型如何在端侧完成部署?

 

以手机端为例,目前发布且有实际演示的模型中,10亿参数量Stable Diffusion已经可以在搭载骁龙芯片的手机上运行,但再大一些的模型,比如让手机厂商们心心念念的Llama 2,其130亿参数规模跑在手机端就非常吃力,这还是在不考虑功耗问题的前提下。

 

也就是说,目前的大模型,有相当一部分根本无法打破端侧产品在硬件上的掣肘,毕竟云端算力可以通过增加机柜和GPU的方式提高,但手机和PC显然不具备这样的条件。

 

针对这个问题,3月31日,虎嗅科技组主办的“2024 AI内参会”上,邀请到了面壁智能CTO曾国洋,极客邦科技副总裁、TGO鲲鹏会总经理杨攀针对端侧AI和AGI行业的技术实践及应用场景展开了讨论。

 

以小博大,未尝不可

 

今年2月,面壁智能发布了20亿参数的开源端侧模型MiniCPM,在多个主流评测榜单中,该模型中英文分均超过Mistral-7B开源模型,甚至优于Llama 2-13B。

 

另外,该公司表示,该模型支持消费级显卡如1080Ti参数微调,以及主流手机处理器端侧推理。

 

在大模型从业者们疯狂堆砌参数的当下,面壁智能为何会选择另辟蹊径地去主攻一款小模型?

 

在内参会上,曾国洋就这一问题做出了回答:把MiniCPM称之为小模型可能不太准确,较为合适的名称应该是“更高效的模型”,就是在有限的资源内去把模型做得更好。

 

“如果简单地将模型参数规模做大的话,它确实会随着scaling law出现效果的提升,但它单一维度的提升是低效的。我们在研究出一个更优化的方法之后,其实是可以随着参数扩大,让模型爆发出一种更明显的增长。”曾国洋表示。

 

这里需要解释下scaling law的概念。即模型的最终性能主要与训练计算量、模型参数量和数据大小三者相关,而与模型的具体结构(层数/深度/宽度)基本无关。研发人员可以通过它在固定资源预算中,如额定的GPU数量、训练数据量或是训练时长下,匹配模型的最佳大小,且无需经历昂贵的试错。

 

面壁智能的思路就是,在遵循scaling law的情况下,对模型的细节进行更好的优化,使其在同等成本下达到更好的效果。

 

而成本问题也可能是未来端侧AI发展的最核心的推手。可以做个假设,如果未来在大模型领域出现了某个超级应用,会有上百万,乃至上千万人同时在线,用户都在云端使用模型的话,仅算力带宽这一项成本,对于创业团队来说都是难以承受的。

 

在今年2月MiniCPM发布会现场,面壁智能CEO李大海曾做过测算,用一台搭配骁龙855芯片的手机在本地端跑大模型,按照运行 5 年计算,每秒 7.5 tokens,那么 170 万 tokens 的推理成本仅需人民币 1 元,成本仅为 Mistral-Medium 的百分之一。

 

这里有处有趣的细节是,骁龙855是高通于2018年发布的终端SoC,用于演示似乎有些过于落后了。

 

曾国洋在AI内参会现场的发言,大概解释了这一问题:行业内有个误区是手机等终端的算力不够,但真正的瓶颈其实是显存带宽不够。曾国洋认为,随着端侧模型的落地,未来硬件层面可能会迎来一波升级。

 

“我觉得未来一到两年的时间,我们有机会看到一个相当于GPT3.5的模型跑在手机上。”曾国洋表示。

 

AGI时代,创业者们该怎么办?

 

无论是目前已经被大规模投入使用的云侧AI,还是行业内正在布局的端侧AI,亦或是两种混合部署,最终都指向行业翘首企盼的终极目标——AGI(通用人工智能)。

 

AGI听起来距离我们还很遥远,但无论是黄仁勋还是山姆·奥特曼都不止一次地表示过,AGI最快将在5年内问世。那么在当下,人工智能的创业者们该如何面对这即将到来的行业内的最大变数?

 

极客邦科技副总裁、TGO鲲鹏会总经理杨攀认为,经历了互联网时代和AIGC时代的创业者们很可能会陷入对两大路径的依赖当中:对移动互联网的路径依赖限制对AGI原生应用的想象,对云计算的路径依赖限制对OpenAI生态位定位的预判。

 

“业务负责人们需要思考的是,在不依赖当前AGI技术实现水平的情况下,对未来6-18个月的产品功能和市场变化做出预测。”杨攀表示,最终还是要落在场景上而不是功能上,因为后者很容易被AI所碾压。

 

正如一个无比现实的问题是,今年有望发布的GPT5,其能力可能会直接将部分应用甚至是行业覆盖掉。

 

如何避免被GPT5折叠?在杨攀看来,无论大模型能力有多么强大,最终它还是要同物理世界打交道,还是要接入外部的数据,如果你是数据的提供方,就会成为它坚实的伙伴。

因此AI创业者们必须要审视手中的项目是否具备数据优势,是否能给大模型提供数字世界或是物理世界的接口,以及同其他系统能力打交道的接口。

 

“相较于过去我们所熟知的程序,AI擅长的其实是模糊数据的处理,而这正是过去人类所擅长的工作。”杨攀补充道。

 

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年4月9日
Next 2024年4月9日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日