在苹果公司取消造车计划,转而投向生成式AI后约三个月,苹果终于要在自己的终端产品上应用AI模型了。
长期跟踪苹果的彭博新闻社记者马克·古尔曼(Mark Gurman)当地时间5月26日爆料,经历了为期两个月的谈判后,苹果已与OpenAI达成协议,将后者的聊天机器人ChatGPT集成到iOS 18,双方的合作伙伴关系预计将于6月的苹果全球开发者大会(WWDC24)上官宣。由于不放心让OpenAI成为iOS一项主要新功能的单一供应商,苹果仍在努力与谷歌达成协议,希望Gemini可以作为一种选择。
此前,苹果已经推出OpenELM、MM1、Ferret、Ajax等多款AI模型,但这次古尔曼爆料的焦点并不在这些苹果自研AI模型上,似乎苹果更相信外部更成熟的AI模型及其产品。
但苹果在生成式AI时代已经迟到了。
去年5月,苹果公司CEO蒂姆·库克(Tim Cook)就曾表示,AI的潜力“非常有趣”,但他表示该技术存在“许多问题需要解决”。他解释说,在决定如何以及何时使用AI时,“深思熟虑非常重要”。
过去的一年,华尔街的分析师一直在抱怨苹果没有AI故事可讲。今年5月2日,在2024财年第2财季(今年第1季度)财报的电话会的问答环节,每一位提问的分析师都在问有关AI的问题。但除了之前的评论外,库克几乎没有透露苹果未来的AI功能或服务,也没有透露苹果如何利用它们赚钱。
“我不想抢在我们发布公告之前发表言论。”库克在电话会上说,“我们认为生成式AI是我们产品的一个关键机会,我们相信从理论上讲,我们拥有与众不同的优势。我们将在未来几周内进一步讨论这个问题。” 而库克近期在接受路透社采访时则表示:“我们仍然对生成式AI领域的机遇非常乐观,并且正在进行大量投资。”他指出,该公司过去五年已在研发上投入了1000亿美元。
尽管苹果在生成式AI时代姗姗来迟,但苹果依然拥有后发优势——庞大的用户基础、完善的产品生态以及软硬一体的范式。
近期,出门问问创始人兼CEO李志飞就表示:“大公司跟小公司是完全不一样的。我觉得对于大公司来说,后发可能是优势,尤其是做大模型的。”
在生成式AI领域,一方面,AI似乎有先发优势:先行者可以有数据飞轮;另一方面,AI似乎有后发优势:后来者的投入产出比更划算。
一直在AI领域占有先发优势的OpenAI,即将成为苹果后发优势中的一环,而OpenAI也想借助苹果的后发优势,寻求更大的增长机会。
“虽迟但到”的决定
OpenAI发布GPT-4o后,就有网友评论,苹果的语音助手Siri可以下岗了。
作为一款“原生多模态大模型”,GPT-4o所有输入和输出都由同一个神经网络处理,这使得GPT-4o能够接受文本、音频和图像的任意组合作为输入,并输出文本、音频和图像的任意组合,是兼具了“听觉”“视觉”的多模态模型,同时还支持中途打断和对话插入,且具备上下文记忆能力。
OpenAI官网博客显示,GPT-4o在谈话中对音频输入的平均响应时间为320毫秒,最短的响应时间为232毫秒,与人类的响应时间相似。
值得注意的是,OpenAI在演示GPT-4o时使用的是iPhone,以OpenAI的野心和能力,绝不仅仅是想做一个APP,而是想进入整个苹果生态——OpenAI需要通过苹果来突破用户增长瓶颈。
OpenAI总裁格雷格·布罗克曼(Greg Brockman)演示GPT-4o功能,图片来源:OpenAI
在GPT-4o发布前,ChatGPT已经历了一年左右的流量增长困境。随着GPT-4o的发布并接入ChatGPT,ChatGPT本月有望创下网络流量的新纪录。
SimilarWeb数据显示,今年5月的前三周,ChatGPT网站平均每日访问量约为7700万次,本月总访问量有望超过23亿次,而此前的月访问量峰值为18亿次。
流量来了,OpenAI自然想趁热打铁,苹果就是其重要目标。正如英伟达高级研究科学家Jim Fan所说:“谁先赢得苹果,谁就赢得了胜利。”
不过OpenAI对端侧的“觊觎”其实早有端倪。去年秋天,科技媒体The Information就爆料,OpenAI CEO 萨姆·奥尔特曼(Sam Altman)与苹果公司原首席设计官乔纳森·伊夫(Jony Ive)正在合作开发一款AI驱动的消费设备。这家初创公司目前正在与一些风险投资界的巨头进行融资谈判,其中包括Emerson Collective和OpenAI的主要投资者Thrive Capital。
OpenAI刚刚走出增长困境不久,苹果则还在经历增长困境。
苹果公司发布最新季度财报显示:今年前三个月,实现营收907.53亿美元,同比下降4%。
去年开始,华为、荣耀、小米、OPPO等手机厂商都开始积极尝试AI大模型落地。现如今,生成式AI已经成为手机产业链角逐的一个新赛道,而苹果这条赛道的步伐显然慢了竞争对手几步。IDC中国区副总裁王吉平曾对媒体表示:“有AI加持的手机厂商增速表现更好。”
尽管苹果与OpenAI合作的传言不断,但接入GPT-4o的ChatGPT展现出的这种令人惊叹的实时交互效果以及暴增的流量,或许是让苹果最终选择OpenAI作为合作伙伴的原因。
苹果在“深思熟虑”之后,终于要迈出AI模型落地的第一步。
大招背后的问题
尽管距离WWDC24还有十多天,但是外界已经心急如焚。不少人好奇,苹果和OpenAI的合作模式会是怎样的?
今年WWDC24的中文海报主题是“大招码上来”,但是在苹果放大招之前,一些问题不容忽视。
尤其是模型在端侧和云侧的使用情况以及用户隐私的保护,是大家关注的焦点。
对此,Jim Fan在X上发帖进行了预测:
放弃siri。OpenAI为iOS提炼出更小型、纯设备上的GPT-4o,并可选择付费升级以使用云;
将摄像头或屏幕传输到模型的原生功能,芯片级支持神经音频/视频编解码器;
与iOS系统级操作API和智能家居API集成。
Jim Fan认为,可以通过OpenAI为苹果设备训练端侧小模型,对部分付费用户提供云侧大模型的方式进行合作,进而灵活地解决用户隐私保护的问题。
无独有偶,古尔曼此前也发文称,苹果公司计划将自研高端芯片(如M系列芯片)置入云计算服务器中,用于处理计算难度大的AI功能,而相对简单的AI功能则直接在iPhone、iPad和Mac等终端设备进行本地处理。
不过,苹果想要在自己的设备上用好OpenAI最先进的大模型,还有以下三方面的问题值得探讨:
首先是Siri用什么模型的问题。由于Siri是人机语音交互的入口,很多人好奇,苹果是会将Siri接入云端的GPT-4o模型,还是会将本地与云端模型混合使用,为Siri提供服务?
与国内手机厂商普遍采用云端处理语音助手的请求不同,Siri的唤醒和识别都是在本地进行的。但是端侧模型对手机内存、CPU、GPU算力调度的要求更高,vivo副总裁、OS产品副总裁周围就曾直言:“性能方面,如果做输入法的出词推荐,两秒才能出一个词;功耗方面,大参数量级的大模型在端侧运行非常耗电。”
国内某手机厂商专家西风(化名)在一场专家调研会上表示,由于GPT-4o参数量巨大且依赖强算力,因此Siri在接入GPT-4o后,不会走现有的端侧识别合作路线,而是会在云端调用识别功能。
他推测,苹果唤醒可能直接使用GPT-4o的云端模型,但具体任务的调用策略需要一个系统引擎来决定何时调用云端或本地模型。对于文本处理、生成等功能,本地模型就能胜任;但对于需要细腻度和准确率更高的多模态交互(如视频功能),就需要调用云端模型来解决。
西风的推测,与古尔曼的最新爆料基本一致。古尔曼透露,苹果的iOS 18和macOS 15都将包含特定的软件,用于确定任务是在端侧还是云侧进行处理。
接近苹果的硅谷某大厂生成式AI开发者丽声(化名)则表示,由于苹果对用户隐私的极端重视,苹果跟OpenAI在大模型上的合作“只可能在云上进行”,不会让OpenAI为其定制端侧模型。“OpenAI对iPhone内应用的调用权限,也需要视用户信息的隐私程度而定。”丽声对“甲子光年”说。
其次是双方合作后,具体产品形态和落地时间的问题。苹果会不会单独为OpenAI定制一个硬件?具体的落地时间会在何时?
Tayside Investments Australia的资深分析师赵冬帅认为,苹果可能会先从PC入手,先推出搭载了GPT-4o大模型的Macbook,以应对微软刚刚推出的“Copilot+PC”的挑战;同时他认为苹果会专门给GPT-4o定制一个硬件产品,以突出GPT-4o的语音和视觉交互功能。
而在西风看来,GPT-4o仍将会搭载在iPhone手机上,只是出现时间早晚的问题。他认为,GPT-4o的云端应用预计会在iOS 18发布时出现,而与硬件的充分融合则会在今年9月份的iPhone 17上体现,这也将带动国内厂商瞄准AI手机定义进行相应变革和参照。
丽声对于“苹果可能推出新硬件”的猜测持否定意见。在她看来,苹果的硬件战略是非常固定的,绝对不会因为和OpenAI合作就为其专门定制新的硬件。“苹果大概每六到七年才会出一个新的硬件产品,GPT-5可能明年年初就会发布,那如果按照这个逻辑,难道GPT每迭代一个版本,苹果就要为其定制一款硬件吗?”丽声说。
最后是接入OpenAI后用户高频使用带来的算力调度与算力成本问题。接入GPT-4o后,iPhone全球超过10亿的活跃用户会不会使苹果的云端交互变得不顺畅?苹果又该怎么解决接入GPT-4o后算力成本大幅提升的问题?
“甲子光年”了解到,一般来说,一个手机厂商每年需要向识别相关的大模型供应商付费大约8000万元。如果苹果接入GPT-4o,预计支付的费用会在亿元级别。
GPT-4o当前的定价,图片来源:OpenAI开发者平台
或许也正是因为未来搭载大模型的iPhone太耗费算力、太贵了,苹果在尝试一种更加便宜高效的云端算力提供方法:直接将它的PC端芯片M2 Ultra放进云端服务器。
这也意味着,为了更好地参与生成式AI的竞赛,苹果似乎瞄上了算力端,打算自己上手做云服务了。
丽声对“甲子光年”证实了这一点。她表示,之前苹果做AI相关业务的时候,算力端只是通过买显卡、买AWS云服务解决,但是作为一家软硬结合的大厂,苹果在人力、财力上都不缺,很多苹果内部员工也都倾向于自己做云服务。因此她认为,苹果未来可能不会把大模型训练和推理所用的算力像以前一样交给AWS解决,而是自己下场做云。
除了云侧算力,端侧算力同样重要。目前主流端侧模型的参数量均在百亿左右,算力需要满足实时执行这样的模型的要求,便需要扩大芯片面积来提升性能。
“甲子光年”注意到,苹果在其最新发布的iPad Pro上搭载了M4芯片,这是目前苹果性能最强的芯片。M4芯片的NPU运算速度达到了每秒38万亿次(38 TOPS),而苹果的上一代芯片M3的NPU运算速度只有每秒18万亿次(18 TOPS)。
M4芯片,图片来源:苹果
怎么理解这一数据?以自动驾驶需要的算力类比,如果要实现L2级自动驾驶,可能需要20 TOPS;L3级自动驾驶需要50-100 TOPS;L4级自动驾驶需要约2000 TOPS。也就是说,现在M4芯片相当于L2.5级自动驾驶需要的算力水平。
与OpenAI的密切接触,和对云侧、端侧算力的布局,都能看出苹果All in AI的战略野心。尽管双方合作还未官宣,尽管苹果在中国市场份额出现下降,尽管OpenAI大模型并无在华落地资质(有消息称,苹果公司正在和百度进行谈判,以便在苹果设备使用百度人工智能生成技术),但是苹果和OpenAI将如何共同塑造下一代AI手机及其影响,是安卓手机厂商不得不思考的问题。
苹果的后发优势
当我们把苹果入局AI放到全球手机和PC厂商的竞争生态中去考虑,就会发现有一个不得不回答的问题:苹果将大模型引入终端设备,和其他已经落地大模型的厂商相比,后发优势是什么?
庞大的用户基础、完善的产品生态是苹果很明显的优势。根据苹果2024 财年第1财季(2023年第4季度)的财报,包括iPhone、iPad、Mac等,全球活跃的苹果设备数量超过22亿台。而根据Asymco知名分析师霍勒斯·德迪乌(Horace Dediu)发布的数据,其中iPhone在2023年就拥有了超过10亿的活跃用户。
一方面,苹果可以通过自有的用户数据训练大模型,增强自有模型的能力;另一方面,能力更强的大模型也能反哺产品,用更强的功能吸引更多的用户,进而在产品生态中形成一个不断增长的数据飞轮。
丽声则认为,苹果做大模型,最大的优势是软硬一体。
“很多国内厂商用的是高通的芯片,来回的沟通成本、上机时间成本很高,很影响产品的快速迭代,而苹果的自研芯片则没有这种问题;此外,软硬一体的好处是苹果不用拘泥于现有的大模型架构,可以在自己的芯片上做微调进而设计创新架构,而用高通芯片的国内厂商只能根据Llama这种现有的模型架构做。”丽声告诉“甲子光年”。
尽管OpenAI即将融入到苹果的软硬一体的范式中,成为苹果后发优势中的一环,但这并不是永远不变的。
丽声还透露,这次与OpenAI的合作只是苹果在AI和大模型领域的一次“试水”,在更远的未来,苹果很有可能抛弃OpenAI,转而完全采用自研的大模型。
“苹果跟OpenAI的合作很可能不会一直延续下去,我认为这只是苹果的一次短暂的试水,把一些AI功能按部就班地加入进来,看看大家的反馈,然后再做一个属于自己的GenAI系统。毕竟要做一个顶级且安全的大模型,投入不会少,苹果作为大公司肯定能掏得起这个钱,只是因为公司体量太大业务太多,不可能短时间内投入大量人力物力财力搞大模型。按照苹果这几年的产品和经营策略——既不支持开源也很少跟外界合作,因此这次很可能也只是先试试水。”丽声说。
软硬一体的范式,带来了苹果产品中那些令人赞叹的交互功能。尽管在生成式AI时代,苹果入局较晚,但依然值得期待,毕竟有些交互体验和效果,只有苹果才能做出来。
苹果和OpenAI是否能够成功合作,苹果是否可以发挥后发优势打破增长困境、引领技术创新,还有待观察。
但对于所有的智能终端厂商来说,新的战争开始了。
本文来自微信公众号:甲子光年(ID:jazzyear),作者:王艺,编辑:王博