端侧大模型，手机厂商的下一次入口级机会

2023年11月27日 21:05 • 未来科技

”

如果大模型能够在手机端运行，除了使用模型除了需要支付模型训练的费用外，模型运行的算力费用相当于已经在用户购买手机时提前支付了，算力的成本将大大节省。

邱添告诉极客公园，如果应用对大模型要求比较高，必须微调而不是使用提示词工程的方式使用大模型的话，即使手机厂商开放了端侧大模型的调用，应用可能也无法用其完成高质量的推理任务。

过去几个月，海内外的手机厂商纷纷入局，手机端大模型突然火了。

八月华为第一个宣布将大模型接入手机助手，小米、OV 紧随其后。就连一向“慢半拍”的苹果和三星，一个悄悄招人；一个则宣布会将大模型带到最新的 Galaxy 旗舰机型。

上游的芯片厂和下游的应用开发者也在行动。过去两个月里，高通和联发科，相继发布了能够支持在手机端运行百亿参数大模型的新一代手机芯片；Sam Altman 投资的 Humane，则在 11 月推出了 AI Pin，希望构建面向未来的操作系统。

大模型技术已经进入大众视野一年了。在手机上使用基于大模型开发的应用——比如 ChatGPT、妙鸭相机等，对于大模型的第一批尝鲜者来说，已经算不上新鲜。

看起来，用户并不会在意手机上的大模型，到底是在云端还是本地运行。手机和芯片厂商花这么大的力气推动大模型上手机，到底图的又是什么？

一、新的入口

手机厂商入局大模型的第一个目标，当然还是手机助手。

在大模型到来之前，手机助手受制于技术限制，智能能力不足，只有在特定提前写好指令的任务上表现较好。而大模型的自然语言能力，让手机助手的人机交互能力提升了一大截，大大提升了手机助手深度操控手机的能力。

“手机智能助手已经有好多年了，但是之前真的没人用。”OPPO 高级副总裁刘作虎曾谈到，“而大模型到来之后，未来手机一定是我们的超级助理，大模型可以带来影像、操作、文生图等多种体验的提升，这在未来是确定性的。”

在 OpenAI 的近期的发布会中，曾经做了一项通过 Zapier 链接云端数据，调用用户的数据，为用户提供更加个性化服务的展示，而在手机端通过手机助手运行大模型的方式调取这些数据，甚至可能比云端更加直接。

“手机端有大量的短信记录、个人照片、备忘录、日程等，将这些数据变成向量数据库，配合大模型的自然语言能力，就能进行更好的交互。”一位接近行业的人士告诉极客公园，“比如把用户的日程做成了一个数据库，离线保存在用户本地。当用户提问相关问题时，进行一个向量检索算法，就可以利用大模型的能力做出更智能的回答。全部数据还都不会离开手机，保证隐私不会被泄露。”

在近期的发布中，手机公司都强调了这方面的能力。

VIVO 的蓝心小 V，提到手机上万张的图片管理中，用户可以尝试直接以语义识别的方式说出照片的内容理解，让小 V 在相册中主动识别有对应内容的照片。

OPPO 的小布助手中，演示了小布助手帮用户接听电话并进行智能摘要的功能，当用户不方便接听电话时，小布助手可以直接帮用户接听电话，并将关键信息记录下来。

而最早将大模型接入手机的华为小艺，还曾经提到过，小艺可以通过自然语言交流，直接帮用户创建一个场景。比如“每周一到周五早上 6 点半播报当天天气。戴上蓝牙耳机的时候，就播放收藏的歌曲，并把手机设为静音模式”。

这样深度操纵手机的内容的能力，需要需要公司内部对手机系统的各项功能进行重新梳理，将其做成标准化的接口提供给大模型进行操纵，显然能够大大提升手机的使用体验。

另一位行业人士告诉极客公园，手机厂商在手机助手中部署大语言模型，背后的野心或许还不止于此。“原本所有的价值链都在应用内闭环。如果手机厂商有一个人工智能助手，理解用户需求，控制和调用别的应用，那么除了用户的体验会变，手机厂商和第三方应用的关系会发生彻底的变化。”

在目前，这样的应用控制已经在手机助手中初露端倪，尤其是在华为打造的鸿蒙系统中。在华为的展示中，用户已经可以直接和小艺同学用自然语言交互，沟通自己的需求，而华为再通过元服务拉起相关的 app，满足用户需求。

“如果用户接受了这套使用和交互逻辑，未来每个应用甚至都不用做太多自己的界面了，把自己的服务核心标准化后，跟用户交互的入口直接在被大模型驱动的手机助手中。”这位接近行业的人士表示。“甚至随着大模型控制 GUI 进展，比如微软使用 GPT-4 Vision 控制 iOS 这样的试验进一步发展，系统可以直接模拟用户点击，控制 app。掌握智能入口的一方，能够真正成为应用的入口。”

端侧大模型，正是手机厂商实现这一野心的最佳工具。

首先，手机厂商通常不提供云服务，无法获取廉价的云服务。而承接上亿用户的需求，背后需要大量的大模型算力支持。端侧大模型，能够让手机厂商节省掉这一部分的开支，使商业计划更加成立。

其次，手机厂商在利用端侧 AI 中有很强的优势。目前，无论是华为、小米还是 VIVO，采用的都是自研的大模型，可以在出厂前就与手机和芯片公司在底层上进行多次调整，与硬件达到最大限度的适配。在目前端侧大模型十分依赖于内存的前提下，手机厂商也可以通过把内存优先供给于自己的终端大模型，来保证终端大模型的运行。

另外。因为运行在终端，大模型的延时和依赖于网络状态的不确定性也能大大降低，能更好地完成“助手”的服务。

“我们在网络上看到的机器同声传译，很多时候，机器还不能做到同声，会一直在翻译他前面的话。而用端侧来做的话，同声传译没有延时。”小米 AI 实验室主任王斌博士向极客公园表示。

二、大模型上手机，还需要解决这些难点

华为、小米、VIVO 等许多公司目前都宣布了自己的手机助手已经具有了大模型能力，甚至已经开启了内测。不过目前，手机助手中的大模型能力，并不完全来自于边缘端推理，而是通常是端云结合的方式。

而在完全将大模型能力转移到端侧之前，入口级机遇，目前还很难实现。云端大模型的调用成本，会从根本上限制其盈利能力。Humane 推出 AI Pin，每月还需要交 24 美元的额外订阅费，其中很大的原因，也是为了打平云端 AI 的调用成本。

但要想让大模型上手机，目前还存在一些技术和产业的难点。

在大模型出现之前，手机作为一个边缘计算设备，已经可以运行许多 AI 相关的算法，尤其是运行视觉算法对图像进行处理，达到暗光拍摄、降噪、人脸解锁等功能。

比如著名的华为 P30 Pro 手机拍摄月亮事件中，手机端就是通过 AI 算法，为拍摄的月亮生成更多细节，使照片呈现出单靠手机摄像头无法呈现出的月球细节。

运行端侧大模型的推理，与过去手机的 AI 算法，最主要的区别在于，大模型更“大”。

即使是小的大模型，参数通常也需要达到十亿级，而普遍认为参数量达到 30 亿之后，大模型的思维链能力将上一个台阶——这和手机原本运行的参数量大概相差一到两个量级。

具体而言，大语言模型在端侧运行，主要对运行内存产生了挑战。

基于 Transformer 的架构的大模型，底层特点就是推理时，随着对话变长，计算复杂度会增高，而计算成本会提高，推理速度下降，而内存的占用也变高了。

服务器中使用服务器级别的芯片，比如 A100 有 80G 显存。即使用小规模的显卡，V100，也有 32G 的显存，可以防止模型跑的时候运行内存不够。而手机芯片显然远远达不到这样的水平。

因此，目前的一个主流的做法是对模型进行量化。

在大模型内部，权重原本由浮点数存储。例如，fp16 的模型，指的就是采用 2 字节 (16 bit) 进行编码储存训练的模型，而 fp32 的模型，是采用 4 字节（32 bit）的编码进行了储存训练的模型。

简单说，将浮点数改为占用内存更低的整数储存，就是量化。如果该量化从 32 bit 的储存降低到 8 bit 的储存，则整个大模型的内存占用可以降低 4 倍，而如果能够再降低到 4 bit 的储存，则会再降低两倍。

不过，可以想见，进行量化之后，大模型的精度和能力同时也会下降。

接近行业的人士告诉极客公园，一个六七十亿参数的模型，如果进行量化，大概占 2G-4G 运行内存不等，手机内可以运行。安卓的旗舰机，通常运行内存都能达到 16G 左右。

这也是高通等芯片公司努力研究的方向。“借助量化感知训练和/或更加深入的量化研究，许多生成式 AI 模型可以量化至 INT4 模型。基于 transformer 的大语言模型，在量化到 8 位或 4 位权重后往往能够获得大幅提升的效率优势。”高通 AI 产品技术中国区负责人万卫星表示，“使用低位数整型精度对高能效推理至关重要。”

在模型层面，RWKV 团队，也提出了一种另外的解决方式。RWKV 的大模型，不只基于 Transformer 架构，而是基于 RNN、CNN 架构对大模型进行了底层的改进，降低了模型的推理成本。

“不完全沿用 Transformer 架构的 RWKV，在用户对话后，每次会储存一个对话状态，生成时通过这个状态进行推理。这个状态只会变化，而不会变大。因此即使对话状态变长，或多个 agents 同时调用，RWKV 推理也不需要占用更多算力。性能不降，耗电也更友好。”RWKV CTO 刘潇告诉极客公园。

RWKV 认为，这样的大模型，有机会能在硬件能力更低的设备上运行。

极客公园近期得知，模型开发者 RWKV，目前已经推出了一款完全利用端侧的 AI 聊天应用，可以在 GitHub 上下载，运行的是 RWKV 的 1.5B 的模型。

模型本身是一个不需要量化的无损失 fp16 版本。而这样模型，对手机的要求却并不高，手机内存只需要 6G 就可以，这远远低于目前安卓的旗舰机配置，RWKV 表示千元机就足以运行。

RWKV 目前拥有两个端侧可运行的模型，分别是 1.5b 和 3b，正在训练 7b 的模型。开发者使用这样的模型，可以构建对话应用，也可以调用 function，使用音乐模型可以构建音乐相关的应用，性能指标和效率指标在 RWKV 的测试中都处于领先位置。

RWKV-5 模型在 RWKV 的测试中达到 SOTA 水平

RWKV 承认目前的架构下，对于对话上下文的准确性可能低于 Transformer 架构的模型，不过刘潇提到，在终端 AI 的应用中，如果进行角色扮演、情感类的对话生成、内容创作这样对出错容忍度更高的任务，RWKV 极具优势。

除了架构不同之外，RWKV 在芯片上的运行，也与普通的大模型有一些区别。

普通的大模型，主要需要在 GPU 中运行，而使用 NPU 对其进行加速，带来更大的访问带宽和降低访问延时。而 RWKV 的大模型除了可以这样运行外，可以运行于 CPU 中。对不专门具有人工智能加速芯片的手机，这样的运行方式可能是一个优势。

一位接近行业的人士对 CPU 运行大模型评价到：“正常而言，有专用的 NPU 芯片来运行大模型会更好。大量的 OS 的基础功能都在 CPU 上运行，如果算力越占越大是很危险的，系统可能会挂掉。”而 RWKV 在运行中不会增加内存占用的特性，使其能够在 CPU 上更好的运行。

三、端侧大模型，是否能赋能开发者？

终端大模型已经是一个确定的趋势了，但未来对手机的应用生态的影响仍然未可知。除了成为手机厂商的一个新的机遇外，端侧大模型是否能够赋能大模型应用的开发者？

对于开发者来说，使用端侧模型，最直接的好处，自然是算力的费用能够降低。

大模型创业者邱添接受极客公园采访时，对节省算力成本表示期待：“省推理的算力其实能帮开发者省很多钱。比如租一台 8 卡 A100 服务器的话，每个月可能就需要 6-8 万元人民币左右的预算，而且资源非常紧张，可能还需要排队才能租到。”

算力成本的下降，将直接带来许多原先可能并不成立的商业模式变得成立，比如 AI 陪伴服务。

目前，虽然有一些相关产品的发布，比如 OPPO 宣布未来将开放基于 AndesGPT 面向开发者的智能体开发平台，手机公司将端侧大模型 API 开放给开发者使用的场景目前尚未实现。

不过，即使手机厂商没有开放端侧模型的 API 给开发者，也并不代表开发者完全无法利用端侧大模型的能力。

前述的 RWKV app 利用的方式是将大模型放进安装包运行。这样的运行模式，相对应的是，运行时如果内存占用过大，会面临被系统“杀”掉的风险。

不过，受限于端侧大模型的水平，能否使用端侧大模型构建应用也要看应用本身对模型能力的要求。

邱添告诉极客公园，如果应用对大模型要求比较高，必须微调而不是使用提示词工程的方式使用大模型的话，即使手机厂商开放了端侧大模型的调用，应用可能也无法用其完成高质量的推理任务。部分应用可能对模型推理速度有要求，那么端侧大模型目前的能力可能也比较难以满足需求。

随着终端大模型能力的增长，手机厂商是否会逐渐将终端大模型能力开放给开发者？还是将独自垄断新的入口级机遇？未来的商业变化值得期待。

本文来自微信公众号：极客公园（ID：geekpark），作者：Li Yuan，编辑：郑玄

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

储能寒冬下，全球机遇展望《2023中国户用储能出海报告》重磅发布

Previous 2023年11月27日 18:31

全世界的海水变绿了？

Next 2023年11月27日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

端侧大模型，手机厂商的下一次入口级机会

相关推荐