下载了AI助手后没再打开

app通用的主界面,AI搜索对话框为例,其背后都对应着问题的拆解和相对应模型功能的调用:翻译搜索结果、转成语音输出、生成结构化大纲等等,根据用户的特定需求,产品可以做到分别调用翻译模型,tts模型,对专业问题(对信息来源有要求)做对应论文文献搜索。

一个好的智能助手,必须能帮我怼老板

PC端与移动端产品的用户体验,各有优势。

本文来自微信公众号:果壳 (ID:Guokr42),作者:沈知涵,编辑:卧虫,原文标题:《兴高采烈下载了满屏AI助手,我尝鲜了一下就没再打开》

大模型开始“普世化”了,不必理解技术,在不知不觉中就能用得不亦乐乎。

一个不会编程的小学生,在手机上随便扒拉两下,就能创建一个外教“智能体”,陪自己练口语,比越练越烂的那些“英语角”可强多了——这样的例子并不少见。

最近,“智能助手”类产品成了手机应用商店中的新宠。这类鲜明的针对普通用户的AI应用,通常都是用各自的大模型作为“底座”支持,将散落的AI需求整合并封装到一个“聊天界面”之下,基于自然语言处理文本、图像的需求。

你能看到这类产品有,文心一言(百度)、通义(阿里)、Kimi(月之暗面)、海螺AI(MiniMax)、豆包(字节),还有刚刚发布就颇受关注的“元宝”(腾讯)等。一下子,用户恨不得给手机里装满了“助手”。

通过手机app使用AI大模型,比在电脑网页上方便多了,也更符合我们已经养成的操作习惯。经过了最初好奇尝鲜驱动的使用,这类app有没有可能变得像我们打开微信、美团、滴滴那样频繁呢?

本质上,用户的“线上”核心需求没有变,高效获取信息,提升效率,情感表达,社交娱乐等。那,“智能助手们”行么?

神仙打架or菜鸡互啄?

打眼几个助手类产品的第一印象:产品同质化。AI搜索、文档总结和问答、文案写作、图片生成等,能做的事情大差不差。但基于模型能力和对价值判断的不同,让用户在使用起来,体验还是各有不同。

AI的“工作流程”,首先是信息搜集,接着对信息进行结构化处理,结合所理解的用户输入,进行内容生产(也可以称之为创作)。

面对确定的、已有的资料,大模型们都能给出不错的答案。但需要信息检索时,原本具备搜索能力的大模型厂商,在联网、时新类搜索上一般表现更好。

比如腾讯元宝接入微信搜一搜,搜狗搜索引擎。当你问它“现在适合买黄金吗?”,它会总结出投行和证券公司最近对于黄金价格走势的判断。

决定回答质量的另一个因素是“信息源质量”。当前AI搜索大致工作原理,用户以自然语言的查询先被重构,输入进实时索引中搜索信源,再交给语言模型阅读,最后将阅读到的信息结构化一篇有条理的回答,同时附上相关参考链接,为的是克服“幻觉”问题——尽管,那些教AI说话的“老师”(信源)也总在胡说八道。

不得不承认,很多高质量的中文内容处于封闭的生态下。最典型的例子,是微信公众号——新近上线的“元宝”,就是得益于做了对微信公众号检索的打通,让AI回答的质量得到了巨大提升,甚至可以被当作微信生态内容的一个新入口。

一个“聊天框”,用自然语言提问解决了“不会搜索”的难题,而对于可能出现的各种“答非所问”,这类“智能助理”产品也提供了相应解决方案。

如果你在“百小应”中问,引擎盖打不开了怎么办?它不会直接泛泛而谈。而是先问什么品牌型号,哪一年的车。聚焦后再生成进一步的回答。通过多轮对话明确问题,搜索少量(不只调用通用搜索,也需要垂直搜索能力)的信息源,做出精准的回答。

一些AI产品中的“灵感提示”、“追问”也都是为了引导用户问出更“对”的问题。

回到讨论的核心。助手类产品的意义是什么?答案或是,提升用户解决问题的效率。

还是以这些AI app通用的主界面,AI搜索对话框为例,其背后都对应着问题的拆解和相对应模型功能的调用:翻译搜索结果、转成语音输出、生成结构化大纲等等,根据用户的特定需求,产品可以做到分别调用翻译模型,tts模型,对专业问题(对信息来源有要求)做对应论文文献搜索。

这种多功能组合,是今天智能助理app中集成大量智能体的原因之一。甚至,面对更多长尾需求,产品允许用户自建智能体。无论是通过自然语言,简单地构建一个智能体;

还是开放给专业开发者(至少是有编程思维的人),以自建workflow(工作流)的方式构建智能体。

普通用户对这类应用的日常需求已经呈现出一个清晰的主线:如何满足娱乐和如何提升效率。

AI产品总体渗透率不足1%,各家并没有拉开差距。功能上,产品处于同质化的状态。深究原因,是技术能力相对也同质化——回想一下,这是不是和当年各种同质化的app创业很像?

一个好的智能助手,必须能帮我怼老板

PC端与移动端产品的用户体验,各有优势。处理逻辑复杂,操作繁多的工作流(对于用AI类产品,尤其当涉及到上传多文件,对内容生产结果二创等),PC端用起来更方便。

那么移动端的优势是什么?至少一个智能助理,听起来应该像一个可随身携带的“百事通”。

GPT-4o发布中的一个惊喜是,语音交互竟丝滑流畅到这种地步了——延时缩短到不可察觉,AI助手能听懂语气词,增加了情感表达。当我们感受到“对方”能自主抬高,压低声音,就会不自觉将其看待成人,与之交互就会越来越频繁。

如今不少厂商将“语音交互入口”设置为默认交互界面。对语音交互体验做优化,包括但不限于,做基于大模型的ASR(自动语音识别),超自然的TTS(语音合成)音色。

不久前,Arc Search(一款浏览器产品)推出了一个名为“Call Arc”的功能,当检测到用户执行打电话手势时(举起手机,贴近耳旁),便能直接到用户与AI搜索聊天——一个移动端AI产品更为“激进”的尝试。

GPT-4o(还有Gemini Live)本质是多模态的进步。他们都在重新定义大模型产品的人机交互标准。所谓多模态,是能像人一样看,听,说,有触觉,调动摄像头,麦克风等手机上各种传感器(移动端天然优势)。行业的一个普遍共识是,接下来提高底座语言模型的能力,将多模态统一融合。

效率另外的提升,来自AI与原有产品生态形成联动。大模型厂商已经在做尝试。

比如钉钉(联合饿了么)群内,用自然语言“20杯拿铁,少冰,加浓”点单、拼单,无需离开群聊便可一键付款。

如何使用好手机上的“个性化”信息,也是这类app效率提升和使用体验优化的关键——理论上,如果AI app能引用地图导航app和机票旅行app的购买偏好数据,就能为用户安排出行。类似利用好本地的实时的信息,可以创造很多高价值的场景。

“我就期待能有这样的搜索,跟微信联动起来,当老板呲牙咧嘴地逼问我为啥他交代的事情我没做时,我就当着他面让AI立刻查查,他到底说没说!”——我有一个朋友这么说到。

的确,没有比这个价值更高的场景了。

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年5月31日
下一篇 2024年5月31日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日