AI大模型亢奋一年多,该上终端设备了?

生成式人工智能(AI)大模型亢奋了一年多,激发了用户对全新的人机交互方式的期待,逐步来到了在终端设备上兑现的日子,个人电脑(PC)将很快成为第一站

正如当年个人计算所走过的道路,AI计算成为真正的通用技术,正在向小型化与个人化发展,将在个人终端设备规模化部署。全世界从PC、手机,到汽车、头显,可穿戴和AI原生的硬件,都将成为个人AI设备。

与人们担心的少数巨头垄断了AI相反,AI PC将真正实现AI普惠,成为每个人的AI。它也能够帮助解决大模型在走向大规模推理应用时所面对的一系列挑战,如AI PC能满足实时、准确、性价比的推理,隐私保护与数据安全,将自然交互与经典交互融合,这些所形成的个人AI体验基础之上,AI PC会朝着个性化的专属智能体演变。

在这一变革中,AI PC的首个交付者,将是能构建出完整个人AI用户体验的厂商,尤其是那些立足自身供应链优势与雄厚用户基础的整机厂商,它们将在产品创新与行业重构的机会里,提升自己的价值链地位。

大模型应用寻求终端

2024年,大模型需要应用,需要规模化,需要与场景和行业结合起来,开源是最重要的路径之一;就连那些SOTA闭源大模型,也开始推出小参数量的模型。它们都盯着终端设备。

OpenAI已经连续两年惊艳了消费者,但谷歌、Meta与亚马逊等科技巨头已经缓过气来,在狂追云端大模型性能的同时,向终端设备开辟了新的战场;微软一手云端闭源大模型OpenAI,一手端侧开源“小模型”Mistral,还自研了更小巧的模型Phi,把持着通往终端设备的大门。这将是贯穿今年全年的战事。

越来越多的生成式AI初创企业,在烧了一年多的融资之后,正迫切寻求更为可持续的商业模式。它们或者自研大模型,希望规模化推理应用场景,能够摊薄前期高昂的预训练成本;或者接入了大模型API,处于亏本赚吆喝的阶段,算力采购成本更甚于互联网时代抢购流量。

它们今年动作频频,集体指向一个共同的问题:让推理变得更便宜、更快速、更安全。

下一代大模型继续沿着扩展法则(Scaling Law)的轨迹,从文本与图像转向视频。随之而来的多模态推理的算力需求,将会指数级增长,用户对算力价格也会更加敏感。同为OpenAI的产品,生成一段Sora视频,远比生成一副Dall-E图片要贵得多,也耗时更长。大模型服务的延时,也影响了用户体验。

解决问题的一个方法是降低云端推理的成本。Anthropic的定价策略,就是针对OpenAI,文字生成服务的价格,已经低于相似性能的竞争对手。市场上也出现了号称能提供每秒数百token的推理引擎,但是它们的总拥有成本依然昂贵。

从芯片到模型厂商,都不约而同地看到了推理应尽可能在本地完成。尽管现阶段在本地搭载最新的NPU,将小幅推高终端设备的平均价格,但在完整生命周期内,它的算力成本仍要低于云。用户将因此获得最优性价比的AI算力,模型厂商与应用厂商也能因此基于混合AI算力,建立更亲民的token经济(tokenomics)

大模型技术的规模化,伴随着产品的小型化。压缩和微调技术日益完善,小参数量的大模型涌现。今年以来推出的大模型,往往会在最强大的闭源大模型外,“搭售”一个更小规模参数模型,部分选择了开源。谷歌用它的Gemma 2B与7B,挑战当下热门的Llama 2与Mistral 7B开源生态。它们可以经量化调整部署在终端上,成为最流行的小模型。

端侧部署已是开源大模型的主战场。中国也不例外。阿里巴巴在春节前,开源了六个不同规模的Qwen 1.5(通义千问1.5版),覆盖数亿、数十亿与上百亿参数;初创团队的GLM、RWKV等模型,在基准测试中足以匹敌十倍规模于它们的大模型。

规模化与小型化的终点是个人化。增强检索(RAG)与智能体(Agent)技术,正让大模型在与人类的共同学习与工作中,获取本地知识,感知用户意图,并不断进化。英伟达推出了面向消费者市场的Chat with RTX,可以被部署在PC上,用本地储存的个人专属数据和知识进行推理,并且回答问题。把数据留在本地,同时还缓解了用户对隐私与数据安全的担忧。

本地推理也是解决响应延时的重要方式。这是云端大模型今年的攻坚方向。初创芯片及模型企业Groq能以每秒280个token的速度给出完整答案,自认性价比最高;Anthropic的Claude 3系列中参数规模最小的Haiku,专门针对“延迟敏感和成本敏感型”客户。不少亲测了英伟达Chat with RTX的用户称,本地推理速度要高于相应的云端大模型。

数据在哪里,AI就应该在哪里。AI可以栖身的终端设备,既包括人形机器人,可以解放体力工作者,也包括个人终端设备,可以协助知识工作者。年初至今,两者正在加速成为现实。现存的70亿台个人计算设备,包括电脑、平板与手机,无疑是最重要市场。苹果看到了这一点,放弃了投入十年的造车计划,回归它最熟悉的领域:个人计算(Personal Computing)。 

PC是第一AI终端

生成式AI也是一种计算,根据上一个token,算出概率最高的下一个token,连续不断,就能一致性地生成用户想要的内容。AI的产品化,正在重走PC的演化之路。计算机从大型与集中的系统,走向分散化和小型化,直至个人化,掀起了个人电脑革命。如今,AI让PC再一次面临这样的机会,再一次成为新型计算的“第一终端”。

它就是AI PC,自然语言交互、内置大模型和智能体、具备混合算力、保护用户隐私、形成用户与开发者生态。个人化的计算机与个人化的大模型,结合构成了个人AI伴侣(Personal AI Twin)

所有这些,焕发了用户对于个人AI体验的期待,这种用户体验的入口就是基于大模型的AIOS。它改变了用户与硬件、软件的交互方式,未来还将改变硬件与硬件、软件与软件之间的交互方式。

个人AI的启动阶段,只能是AI PC。要完整交付个人AI的全部体验,就要求它搭载不小于40 TOPS整体AI算力的芯片,用以驱动不小于70亿参数规模的大模型,同时标配智能体和能被智能体调用的应用生态,以及硬件级的隐私保护。PC正好提供了所需的算力平台及综合性能。

芯片厂商率先实现了AI PC硬件指标的最低门槛。

今年年初,通过CPU+GPU+NPU的异构算力组合,英特尔与AMD等传统X86阵营,已经将端侧AI算力整体提升至近40 TOPS;即将上市的高通X Elite,拥有ARM架构低功耗的优势,仅NPU就提供了45 TOPS的AI算力,端侧生成式AI处理能力每秒30 tokens,让本地处理130亿参数的大模型成为可能。英伟达的RTX 40系列GPU,仍是最强大的消费级计算单元,全功率下AI算力高达数百TOPS。

具备通用技术潜力的大模型,在知识和创意工作领域,目前还离不开PC。传统上,知识的供给侧革命,就是借助PC这一工具来实现的。这里是数据产生的地方,同时也为处理数据的场所,需要更精密更自然的交互方式。大模型卷起的白领工业革命,会让AI PC在工作场所与人类协作,承担越来越多的任务;逐步深入到工作流程中,不断提升工作效率,机器人与组织人的合作日益密切。

整机厂商交付完整体验的AI PC

AI PC已经呼之欲出。市场周期的力量正在回摆。上一次购机高峰,已是疫情期间的混合办公,经过了4年之后,升级换代需求来临;微软也打算让Windows 10退役。按这个时间倒推,市场变革已经积蓄了跨越鸿沟、实现变革的周期势能。

在对周期的追逐与用户高涨的期待里,1月的CES与2月的MWC,AI PC已被数次“发布”,但均未内嵌本地大模型,被视为预演。而恰恰端侧大模型,才是英特尔CEO格鲁夫总结的产品组件中出现的“十倍速”因素,它将重新定义产品,引发行业重构。

AI PC是一次产品的革命,初期围绕AI体验出现大量的新技术,如NPU和异构的算力,品类众多的模型,分散的训练和部署平台,不完善的工具链,以及正在成熟中的智能体和增强检索等技术,仍处于发散式创新的阶段。例如异构算力组合,英特尔正在推广OpenVINO,AMD的是ROCm,英伟达建立了CUDA生态。芯片架构、AI框架与API接口,标准各异,稳定性不足,无形之中抬升了开发与部署的门槛。

这个时候,就像克里斯坦森所说的,行业需要站出来垂直整合者,向市场做出创新者的解答,“改刀”“缝合”这些核心技术组件与模块,将其收敛为可以最终交付的完整的产品。这也是为什么在大型计算机与微型计算机时代早期,出现了IBM与苹果这样成功的一体化开发的企业。

芯片厂商、系统厂商、模型厂商与超级应用厂商,都看好AI PC的市场前景。英伟达的Chat with RTX就可以部署包括Llama、Mistral、Gemma在内的大模型;高通的AI Hub打包提供了近80个模型。苹果研发的M系列芯片,就是最早部署于笔记本的NPU。苹果计划在今年推出iOS 18,微软则是Windows 12,都将是深入融合AI的新版操作系统。

但整机厂商将在AI PC上构建出两个“杀手”级应用,一个是基于大模型和智能体技术的AIOS,另一个是基于混合算力的推理引擎。

整机厂商可以开发专门针对硬件优化的AI软件,以提高最终用户的体验,使AI PC更易于使用和更具趣味性;整机厂商还可以预装便于开发者和用户使用的大模型训练部署平台和工具链,并且设定智能体与其他应用之间的接口与标准。

整机厂商可以成为AI PC生态的整合者。商业软件将会集成中小型大语言模型,包括文字、数据、编程、图像甚至视频等功能,尤其是结合本地数据与知识库的应用,将会出现在桌面上和AI应用商店中,并且被AIOS的智能体所调用,形成新的商业模式。

AI PC在推向市场阶段,用户反馈是塑造和实现用户体验的关键。新的人机交互融入了机器学习的因素,进入了人机演化的阶段,人类用户“反馈”的作用将被放大。整机厂商拥有广泛的客户网络与丰富的应用场景,时刻验证技术路径、功能需求、交互体验,根据用户反馈调优产品,处于有利位置。用户群体越庞大,细分场景越齐备,就越有机会在产品创新与行业复苏中发挥主导作用。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月22日
下一篇 2024年3月22日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日