WWDC前瞻:Siri的终极形态会比GPT-4o更科幻?

结果,13年过去,上面的功能似乎还是Siri使用最多的几个场景,就算是后来支持的家居操控,和快捷指令,总体上还是一些打开关闭的功能,其实Siri一直没迎来质的飞跃。

ChatGPT教我如何用iOS快捷指令设置节假日闹钟,虽然逻辑清晰,但似乎不太可用

除了让用户更自然自定义操作,还可以去期待Siri成为一个更“主动”的助理。

Siri已经落后了。

据《纽约报道》,这就是去年苹果软件主管Craig Federighi和机器学习高管John Giannandrea花了几周测试ChatGPT后的想法,因此,他们决定对这个13岁的语音助手进行大改造。

离WWDC开发者大会还有不到半个月的时间,科技记者Mark Gurman带来了AI版Siri的最新进展爆料,看起来,这个总是被吐槽“人工智障”的语音助手确实将迎来大更新。

一个坏消息:里面一些重磅功能可能不会在今年到来。

尽管如此,Mark Gurman称苹果内部依然将iOS 18视为有史以来最重要的升级。

姗姗来迟又未来可期的“掌控应用”功能

据报道,在AI的加持下,Siri将能够进一步“掌控应用”,实现应用功能的精准控制。

比如说,让Siri把文件从一个文件夹转移到另一个文件夹,或者让Siri打开特定的新闻文章,甚至可以让Siri给出一个文章摘要。

虽然现在已经能够使用Siri来发短信甚至发微信,但是基于AI大改造的Siri将走得更远,能够分析人们如何使用自己的设备,并学会越来越多的自动操作。苹果计划,将在其开发的app中支持“数百个”命令。

iOS 10就已经能实现的Siri发微信功能

听着确实不错,不过Gurman表示,这个功能一开始仅限于苹果自己开发的app,而且不会在今年推出,可能最早要等到明年的iOS 18后续更新。

并且也有消息称,旧型号或许仅有搭载A17 Pro处理器的iPhone 15 Pro,以及M1以上的Mac能够支持更多本地AI功能。

新的Siri一开始可能一次只能听懂并执行一个命令,但有望在未来支持一串的命令,比如说将录制好的会议录音生成一个总结(也是iOS 18有望推出的功能),然后用邮件发给同事,还能直接补充一点文字说明,一套操作一句话就能交给Siri完成。

新的Siri也预计会和iOS 18的其他AI功能一样,存在一个判断系统,根据所需算力大小,判断AI任务是否可以在设备本地完成,还是需要在云端运行。

如果要去总结Siri目前这13年的发展,“管生不管养”恐怕是最贴切的一个。

在2011年的iPhone 4s发布会上,Siri压轴登场,给在场观众和世人不小震撼。当时对Siri的演示是这样的:可以问它某城市天气如何,或者某股票表现如何,而一句话就能设定一个离开公司自动弹出的提醒事项,在当时也是一个非常酷非常未来的功能。

结果,13年过去,上面的功能似乎还是Siri使用最多的几个场景,就算是后来支持的家居操控,和快捷指令,总体上还是一些打开关闭的功能,其实Siri一直没迎来质的飞跃。

即使在面对Google Assistant、微软Cortana、三星Bixby等其他后来居上的语音助手,甚至国内小米“小爱同学”也越来越好用的情况下,苹果依然“不思进取”,直到ChatGPT横空出世才意识到Siri已经落后时代。

虽然苹果好像隔三差五就在发布会上介绍,Siri又变强了,能理解更多指令了,能干更多事情了,但很多时候,能理解不代表能做到,能做到不代表能做好

比如告诉Siri,我想自拍,Siri二话不说帮你打开相机和前置摄像头,然后就没有然后了,用户还需要伸手去点击快门。甚至有的时候,Siri只会自动跳转相机应用,而不会跳转到前置模式。

如果是三星的Bixby助手,会自动进入自拍的倒计时,全程真正做到不需要用户动手操作。

苹果默认的相机应用本身自带倒计时功能,因此这种流程在实现上根本不需要太多AI因素加持,但苹果就是没有把体验做好。

Siri的对手是快捷指令

不知道你有没有使用过“快捷指令”这个功能呢?

苹果收购Workflow公司后,在iOS 12中将其产品作为“快捷指令”整合入iPhone,也在macOS 12时在Mac平台上推出。

这个功能能够实现很多iOS的进阶玩法,比如说一键实现下班打卡,一键将LivePhoto和视频制作成GIF,甚至还能自动化运行,实现“节假日自动关闹钟”。

但这个功能对小白用户并不友好。想要新建一个快捷指令,用户要在一个类似脚本编程的界面中选择各种操作模块,并用各种诸如“如果……那么……”“只要……就…”的逻辑将其串联起来,像是“节假日闹钟”这种包含多种逻辑判断和自动化运行的快捷指令,用户即使是对着教程设置,也很容易出错。

苹果虽然提供一个可以直接获取现成脚本的“快捷指令中心”,但是里面提供的快捷指令效果简单,很少有切中用户痛点的功能。

这个功能类似三星Galaxy手机的“Good Lock”模块,提供效果非常强大的自定义功能,但是门槛相对应也不低。

而AI大模型最重要的能力之一,就是自然语言的理解和逻辑思维能力。也就是说,用户对大模型AI说一句“我下班了,帮我打卡”,AI就会知道你的意思是执行“打开钉钉”-“进行打卡”的操作,而不是表示自己“没听明白”。

现在的Siri也不是完全不具备这种能力。让Siri在你离开公司时提醒你给家人买个生日蛋糕,是iPhone 4s发布会上就被演示过功能,背后同样是理解用户语言并转化成相关操作的一个过程。

iPhone 4s发布会上介绍的很多功能依旧是现在Siri的主要能力

而AI大模型加持后的Siri能做到的应该远远不仅如此。用户用自然语言描述自己的复杂需求,Siri听懂后,转化成脚本的逻辑,并自己执行相应的步骤,不用让用户面对复杂的编程,这才是真正的“快捷”指令。

ChatGPT教我如何用iOS快捷指令设置节假日闹钟,虽然逻辑清晰,但似乎不太可用

除了让用户更自然自定义操作,还可以去期待Siri成为一个更“主动”的助理。

如果你使用iPhone时间够长,会发现在有时候,iPhone会自动弹出建议。比如说,用户戴好蓝牙耳机,就推荐你打开网易云音乐,因为这就是你的使用规律;或者在深夜充电时,手机自动降低了充电功率,以保养电池,但又能在你醒来前充好,也是因为发现你有在睡前长时间充电的习惯。

这些就是机器学习的结果,也是苹果一直以来致力的AI功能。现代人一天要花不少时间在手机上,用手机买买买、吃饭、办公已经很普遍,手机自然成为比肚里的蛔虫更懂你的存在。

想象一下苹果强大的情景感知,加上更强大的手机自动操作能力,AI版的Siri或许真的能化身成一个真正的“私人助理”,在你把事情交给它完成之前,就预判好你的需求,把一切安排妥当。

比如说,通过你订的机票,自动帮你查询好目的地到达后的天气,还提前设好闹钟,根据你的出行习惯和实时交通状况,预计好出行的时间提前帮你叫车,到了机场自动弹出机票和自行使用应用值机,到了当地给你打开大众点评推荐餐厅,简直是私人助理+导游。

想要实现这一套行云流水的操作,我们当然会去想,这需要开发者和苹果的双向奔赴。不过,AI发展的速度已经超出了我们的想象,也许未来,AI能够直接模仿人类的操作。

我们能看懂的UI,AI也在学习中

虽然新的Siri的智能操作初期只支持苹果自己的应用,但我更愿意相信这只是苹果AI路线的起点或者中段,而并非终点。

我相信苹果AI最终的目标是实现这样的场景:早上起床,用一句“Siri”唤醒Siri,再让它打开微信公众号,朗读最新的文章,就这样在完全不用动手的情况下,听取新闻早报。

“快捷指令”能够支持第三方app的操作,主要是因为苹果开放了API,第三方应用厂商也可以将应用内的操作拆分成快捷指令能够执行的模块。

但这还要看应用厂商是否愿意提供相关的模块和操作,比如说,如果快递app不开放显示取件码的操作,就算Siri再聪明,也无法自行打开菜鸟显示取件码。

如果再进一步,让AI直接能理解什么是取件码,以及取件码在app的哪个位置,并在接到指令后自己打开呢?

这听起来好像有点太科幻,不过,行业已经在进行相关尝试了。

在上星期的微软Build 2024开发者大会上,微软整了个活:GPT-4o支持的Copliot,能够实时查看屏幕上的内容,引导玩家一起玩《我的世界》。

演示中,Copilot用非常流畅自然甚至还带有一丝情绪的语言,引导玩家在游戏中制作一把剑。在这个过程中,Copilot能够识别游戏背包内的物品,还能告知玩家缺少的材料,完全就像一个带你玩游戏的“大神”。

这表明,AI助手已经不仅仅是“你问我答”的文字机器人,或者只能够在后台编程处理数据,而是真正能开始理解我们人类看见的UI界面,还能知晓我们如何操作。

而今年火了一段时间的“AI硬件”Rabbit R1,基本抛弃了操作界面,完全通过AI语音助手完成各种服务的使用。Rabbit公司宣称,他们使用了一种名为“大动作模型”(LAM)的AI模型技术,能够在理解了用户的指令后,在服务器模仿人类的操作,直接在相关网页和应用中完成用户的指令。

虽然Rabbit R1的表现与他们所描绘的场景相差甚远,但是这个愿景本身非常美好,GPT-4o等机器人在视觉理解的优秀表现,也让人感觉AI代替人类实现操作的未来确实不远了。

苹果作为一家在开发者中极具号召力的公司,完全可以不用模仿初创公司Rabbit全盘使用“LAM”的做法,可以通过开放相关接口和提供SDK的做法,让各大第三方开发商在应用中原生支持AI操作,带来更加成熟稳定的语音操作体验。

苹果相关的研究显示,他们确实有这种想法,配套苹果的应用UI设计标准,Siri能够更容易理解iPhone屏幕上的一切。

苹果也在研究怎么让大模型看懂UI

虽然技术不如人,但苹果在用户数量和生态构建上的领先,能成为一种非常强大的优势。

9to5Mac这样预测和评价苹果即将到来的Siri和AI更新:

在WWDC上。我们或许不会看到任何特别革命性的东西,但AI融入数百万人每天使用的系统和应用本身就是一场革命。

比起Rabbit R1这种新潮硬件,人人都有的智能手机或许才是AI的最佳载体。

用户不需要知道自己在用的是AI功能,但是当他让Siri帮忙规划一个旅游计划、帮订机票的时候,AI已经在开始深刻改变他的生活。

本文来自微信公众号:APPSO (ID:appsolution),作者:苏伟鸿

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年6月4日
Next 2024年6月4日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日