苹果放大招:新设备端模型超过GPT-4,有望拯救Siri

在最近的一篇论文中,苹果的研究人员宣称,他们提出了一个可以在设备端运行的模型,这个模型在某些方面可以超过 GPT-4。

具体来说,他们研究的是 NLP 中的指代消解(Reference Resolution)问题,即让 AI 识别文本中提到的各种实体(如人名、地点、组织等)之间的指代关系的过程。简而言之,它涉及到确定一个词或短语所指的具体对象。这个过程对于理解句子的意思至关重要,因为人们在交流时经常使用代词或其他指示词(如“他”“那里”)来指代之前提到的名词或名词短语,避免重复。

不过,论文中提到的“实体”更多得与手机、平板电脑等设备有关,包括:

  1. 屏幕实体(On-screen Entities)用户在与设备交互时,屏幕上显示的实体或信息。

  2. 对话实体(Conversational Entities):与对话相关的实体。这些实体可能来自用户之前的发言(例如,当用户说“给妈妈打电话”时,“妈妈”的联系方式就是相关的实体),或者来自虚拟助手(例如,当助手为用户提供一系列地点或闹钟供选择时)

  3. 后台实体(Background Entities):这些是与用户当前与设备交互的上下文相关的实体,但不一定是用户直接与虚拟助手互动产生的对话历史的一部分;例如,开始响起的闹钟或在背景中播放的音乐。

苹果的研究在论文中表示,尽管大型语言模型(LLM)已经证明在多种任务上具有极强的能力,但在用于解决非对话实体(如屏幕实体、后台实体)的指代问题时,它们的潜力还没有得到充分利用。

在论文中,苹果的研究者提出了一种新的方法 —— 使用已解析的实体及其位置来重建屏幕,并生成一个纯文本的屏幕表示,这个表示在视觉上代表了屏幕内容。然后,他们对屏幕中作为实体的部分进行标记,这样模型就有了实体出现位置的上下文,以及围绕它们的文本是什么的信息(例如:呼叫业务号码)。据作者所知,这是第一个使用大型语言模型对屏幕上下文进行编码的工作。

具体来说,他们提出的模型名叫 ReALM,参数量分别为 80M、250M、1B 和 3B,体积都非常小,适合在手机、平板电脑等设备端运行。

研究结果显示,相比于具有类似功能的现有系统,该系统在不同类型的指代上取得了大幅度的改进,其中最小的模型在处理屏幕上的指代时获得了超过 5% 的绝对增益。

此外,论文还将其性能与 GPT-3.5 和 GPT-4 进行了对比,结果显示最小模型的性能与 GPT-4 相当,而更大的模型则显著超过了 GPT-4。这表明通过将指代消解问题转换为语言建模问题,可以有效利用大型语言模型解决涉及多种类型指代的问题,包括那些传统上难以仅用文本处理的非对话实体指代。

这项研究有望用来改进苹果设备上的 Siri 智能助手,帮助 Siri 更好地理解和处理用户询问中的上下文,尤其是涉及屏幕上内容或后台应用的复杂指代,在在线搜索、操作应用、读取通知或与智能家居设备交互时都更加智能。

苹果将于太平洋时间 2024 年 6 月 10 日至 14 日在线举办全球开发者大会“WWDC 2024”,并推出全面的人工智能战略。有人预计,上述改变可能会出现在即将到来的 iOS 18 和 macOS 15 中,这将代表用户与 Apple 设备之间交互的重大进步。

论文介绍

论文地址:https://arxiv.org/pdf/2403.20329.pdf

论文标题:ReALM: Reference Resolution As Language Modeling

本文任务制定如下:给定相关实体和用户想要执行的任务,研究者希望提取出与当前用户查询相关的实体(或多个实体)。相关实体有 3 种不同类型:屏幕实体、对话实体以及后台实体(具体内容如上文所述)

在数据集方面,本文采用的数据集包含综合创建的数据或在注释器的帮助下创建的数据。数据集的信息如表 2 所示。

其中,对话数据是用户与智能体交互相关的实体数据;合成数据顾名思义就是根据模板合成的数据;屏幕数据(如下图所示)是从各种网页上收集的数据,包括电话号码、电子邮件等。

模型

研究团队将 ReALM 模型与两种基线方法进行了比较:MARRS(不基于 LLM)、ChatGPT。

该研究使用以下 pipeline 来微调 LLM(FLAN-T5 模型):首先向模型提供解析后的输入,并对其进行微调。请注意,与基线方法不同,ReALM 不会在 FLAN-T5 模型上运行广泛的超参数搜索,而是使用默认的微调参数。对于由用户查询和相应实体组成的每个数据点,研究团队将其转换为句子格式,然后将其提供给 LLM 进行训练。

会话指代

在这项研究中,研究团队假设会话指代有两种类型:

  • 基于类型的;

  • 描述性的。

基于类型的指代严重依赖于将用户查询与实体类型结合使用来识别(一组实体中)哪个实体与所讨论的用户查询最相关:例如,用户说“play this”,我们知道“this”指的是歌曲或电影等实体,而不是电话号码或地址;“call him”则指的是电话号码或联系人,而不是闹钟。

描述性指代倾向于使用实体的属性来唯一地标识它:例如“时代广场的那个”,这种指代可能有助于唯一地指代一组中的一个。

请注意,通常情况下,指代可能同时依赖类型和描述来明确指代单个对象。苹果的研究团队简单地对实体的类型和各种属性进行了编码。

屏幕指代

对于屏幕指代,研究团队假设存在能够解析屏幕文本以提取实体的上游数据检测器。然后,这些实体及其类型、边界框以及围绕相关实体的非实体文本元素列表都可用。为了以仅涉及文本的方式将这些实体(以及屏幕的相关部分)编码到 LM 中,该研究采用了算法 2。

直观地讲,该研究假设所有实体及其周围对象的位置由它们各自的边界框的中心来表示,然后从上到下(即垂直、沿 y 轴)对这些中心(以及相关对象)进行排序,并从左到右(即水平、沿 x 轴)使用稳定排序。所有位于边缘(margin)内的对象都被视为在同一行上,并通过制表符将彼此分隔开;边缘之外更下方的对象被放置在下一行,这个过程重复进行,有效地从左到右、从上到下以纯文本的方式对屏幕进行编码。

实验

表 3 为实验结果:本文方法在所有类型的数据集中都优于 MARRS 模型。此外,研究者还发现该方法优于 GPT-3.5,尽管后者的参数数量比 ReALM 模型多出几个数量级。

在与 GPT-4 进行对比时,尽管 ReALM 更简洁,但其性能与最新的 GPT-4 大致相同。此外,本文特别强调了模型在屏幕数据集上的收益,并发现采用文本编码的模型几乎能够与 GPT-4 一样执行任务,尽管后者提供了屏幕截图(screenshots)。最后,研究者还尝试了不同尺寸的模型。

分析

GPT-4 ≈ ReaLM ≫ MARRS 用于新用例。作为案例研究,本文探讨了模型在未见过领域上的零样本性能:Alarms(附录表 11 中显示了一个样本数据点)

表 3 结果表明,所有基于 LLM 的方法都优于 FT 模型。本文还发现 ReaLM 和 GPT-4 在未见过领域上的性能非常相似。

ReaLM > GPT-4 用于特定领域的查询。由于对用户请求进行了微调,ReaLM 能够理解更多特定于领域的问题。例如表 4 对于用户请求,GPT-4 错误地假设指代仅与设置有关,而真实情况也包含后台的家庭自动化设备,并且 GPT-4 缺乏识别领域知识的能力。相比之下,ReaLM 由于接受了特定领域数据的训练,因此不会出现这种情况。

本文来自微信公众号:机器之心 (ID:almosthuman2014),作者:关注AI的机器之心

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年4月2日 12:05
Next 2024年4月2日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日