ChatGPT-4o，OpenAI的一小步，人类“AI助理”的一大步

2024年5月14日 10:59 • 未来科技

最有意思的还是不同 ChatGPT 之间的对话。这种无需人类参与的沟通，不仅充满了科幻感，更让人开始想象无需人类协作，而让机器代替人类协作的未来。在一段演示中，一位用户要求一部手机的 ChatGPT。

二、GPT-4o多模态大模型的技术进步及其安全性

这些惊艳的产品表现，都源自。图片来源：Similarweb

这次发布会，直接关系着OpenAI用户量的增长情况。

5 月 13 日，OpenAI 用一场春季发布会，再次搅动了整个 AI 行业。

在 Sam Altman 缺席的情况下，OpenAI CTO Mira Murati 担纲介绍了新的 ChatGPT 产品 ChatGPT-4o。

短短 26 分钟的发布会，却几乎是科幻电影《Her》的现实演绎。当你打开 ChatGPT，你面对的不再是一个只会帮你生成内容，或者进行僵硬语音聊天的工具——你唤起的将是一个“无所不能”的语音助手，或者说，一个越来越接近人类的“物种”。

它长出了“眼睛”，可以通过摄像头看到你，比如通过研究员上扬的嘴角判断他的心情、通过周围的环境背景判断了他正在做什么，甚至给出造型建议；它能“看到”你的电脑桌面，直接帮你查看写的代码有什么问题。

它有了更灵敏的“耳朵”，能听懂的不只是语言，还能听懂研究员过于急促的呼吸声，并引导他慢慢平稳呼吸、放松下来。

OpenAI CTO Mura Murati 宣布推出 ChatGPT-4o | 图片来源：OpenAI

它有了更灵活的“嘴巴”，对话不再有延时，你能随时打断，它也能随时接住你的话。它的声音能带入感情，比如更冷静一点、更激昂一点，甚至讽刺一点。它还能唱歌。

它也有了更聪明的“大脑”，能帮研究员一步步解不等式，还可以做同声翻译，你可以通过它跟不同语种的人们交流。

这些强大的能力背后，是 OpenAI 推出的新模型 GPT-4o。与现有模型相比，GPT-4o 的最大进步在于，它可以实时对音频、视觉和文本进行推理——换句话说，它让 ChatGPT 实现了真正意义上的多模态交互。

这不仅仅是技术进步的追求，更是应用普及的追求。OpenAI 的使命之一是让 AI 普惠每个人，让用户能顺滑地用上 AI 是至关重要的。在“模型即应用”的时代，这种交互体验最终还是要靠模型能力的提升。OpenAI 称，GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步。

发布会上，Mira Murati 宣布 ChatGPT-4o 将免费向所有用户开放，而付费和企业用户，可以抢先获得体验。

电影《Her》上映于 2013 年，它讲述了一位人类爱上一位人工智能语音助理的故事。从今天 ChatGPT 呈现的能力来看，这样的想象正在加速成为现实。

一、ChatGPT 的惊人进步：变身人类“超级助理”，甚至不需要人类参与

OpenAI 的官网呈现了 ChatGPT 作为个人语音“超级助理”的更多惊人应用场景。

首先是面向单个用户，和人一样，它提供的主要是“情绪价值”与“认知价值”。比如它能讲笑话、唱生日快乐歌、玩游戏、逗小狗、给人催眠、让人放松等等；它能充当面试官，给人提供面试建议；它还能给一位盲人提供环境观察，给他讲述看到的景色、提醒他过马路的路况。

盲人用户使用 ChatGPT-4o“观察”整个世界| 图片来源：OpenAI

接着是面向多个用户，它提供的更多是一种“协同价值”。比如给两个语言不通的人充当翻译，让他们能无障碍沟通；给两个人做“剪刀石头布”的游戏裁判，先喊口令让游戏开始、之后还能准确判断是哪个人赢了；充当一名“家教”，帮一位父亲辅导他的孩子做作业；甚至作为一名“会议第三方”，主持和记录多人会议。

最有意思的还是不同 ChatGPT 之间的对话。这种无需人类参与的沟通，不仅充满了科幻感，更让人开始想象无需人类协作，而让机器代替人类协作的未来。在一段演示中，一位用户要求一部手机的 ChatGPT 代表自己，向另一部手机的 ChatGPT 申请售后，结果这两个 ChatGPT 毫无阻碍地聊了两分钟，顺利帮这位用户“换了货”。而 OpenAI 总裁 Greg Brockman 则做了一个调皮的演示，他让两个 ChatGPT 互动并唱了歌。

OpenAI 总裁 Greg Brockman 演示两个 GPT 的互动｜图片来源：OpenAI

一位曾在 10 年前就开始做“AI 语音助理”的前大厂高管对极客公园表示，他当时就设想过 AI 助理的终极形态应该是“多模态、无所不能”，但彼时技术并不支持，他认为 ChatGPT 会加速这种设想实现的可能——只是他没想到，会来得这么快。

他认为，实现 AGI 的一个关键标志是机器是否能具备了自主学习、自主迭代、自主解决问题等能力。这个突破看起来很遥远，但当两个 ChatGPT 开始互相聊天的时候，这个鸿沟看起来似乎浅了一点点。

二、GPT-4o多模态大模型的技术进步及其安全性

这些惊艳的产品表现，都源自 GPT-4o 多模态大模型的技术进步。后者分为文本、语音、图像三部分，GPT-4o 在这三块都有提升，尤其是后两者。

在文本方面，据 OpenAI 的技术报告，GPT-4o 在 MMLU（语言）、GPQA（知识）、MATH（数学）、HumanEval（编程）的评测指标，都超出了 GPT-4T、GPT-4（2023 年 3 月最初发布版本），以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上，GPT-4o 创下了 88.7% 的新高分。

GPT-4o 在文本上的成绩相当优异|图片来源：OpenAI

最关键的是音频、多语言和视觉上的进步。

在音频方面，过去 ChatGPT 的音频缺陷是需要经过三个独立的模型处理，因此存在延迟，且无法承载丰富信息。它先由第一个模型将音频转录为文本，再由 GPT-3.5 或 GPT-4 接收文本并输出文本，最后由第三个模型将该文本转换回音频——一方面，它使得音频的传输存在延迟，GPT-3.5 的平均延迟为 2.8 秒，GPT-4 的平均延迟为 5.4 秒。另一方面，过程中模型会丢失大量的信息，从而无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

而 GPT-4o 的解决办法是，跨文本、视觉和音频，端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。OpenAI 称这是其突破深度学习界限的最新举措。目前，GPT-4o 可以在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入，与人类的响应时间相似。同时在音频 ASR 性能和翻译性能上，GPT-4o 都比 Whisper-v3（OpenAI 的语音识别模型）的性能更优。

M3Exam 基准测试既能用于多语言评估，也可以用于视觉评估。它由多项选择题组成，包括图形和图表。在所有语言的基准测试中，GPT-4o 都比 GPT-4 更强。另外，在视觉理解评估上，GPT-4o 在视觉感知基准上都实现了最先进的性能。

GPT-4o 在视觉理解上同样能力不错 | 图片来源：OpenAI

一位大模型训练者曾对极客公园表示，模型的技术领先性从来不是靠打榜评分，而是靠用户最真实的感受和体验。从这个角度来说，GPT-4o 的技术领先性将很容易见分晓。

OpenAI 表示，GPT-4o 的文本和图像功能将于发布会当天在 ChatGPT 中推出。免费用户就可以使用，不过 Plus 付费用户能享受高达 5 倍的消息容量。在未来几周内，OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。

而开发人员现在就可以在 API 中访问 GPT-4o 的文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍，价格降低了一半，速率限制提高了 5 倍。在未来几周内，OpenAI 计划向一小部分值得信赖的合作伙伴推出 GPT-4o 的新音频和视频功能。

一项强大的技术最令外界担忧的就是它的安全可控性。这也是 OpenAI 最核心的考虑之一。

OpenAI 表示，GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术，在跨模式设计中内置了安全性。其还创建了新的安全系统，为语音输出提供防护。为了保证更好的安全性，OpenAI 表示在接下来的几周和几个月里，将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。

三、OpenAI 从没让外界失望，再次引领科技圈的未来

作为这波 AI 浪潮的开启者、引领者，OpenAI 的每一次发布和更新，都关系着其庞大用户量的涨跌、公司竞争的进退以及整个行业的关注和走向。

在这次发布会之前，外界对 OpenAI 颇多谣传，也包括质疑。一周前，外媒报道此次 OpenAI 要发布的是一款搜索引擎——在一年最重要的新闻发布时刻，这家公司没有推出 GPT-5，这引来外界对其创新力的颇多怀疑。而如果无法拿出足够创新力的技术和产品，这家公司将难以重振用户的增长，满足整个市场对它的期待。

自 2022 年底推出 ChatGPT 后，OpenAI 的用户量经历了大起大落。据 Similarweb 估计，其全球访问量在 2023 年 5 月达到 18 亿次的峰值。但进入 2023 年下半年后，其用户量则有所下降，至今仍未追平去年 5 月的全球访问量峰值记录。

自 2022 年 11 月以来，ChatGPT 在全球和美国的流量增长情况｜图片来源：Similarweb

这次发布会，直接关系着OpenAI用户量的增长情况。

外界对搜索引擎还是颇为关注的，Similarweb 表示这个消息当天让 ChatGPT 流量大涨。不过，在发布会前两天，OpenAI CEO Sam Altman 才对外澄清，此次既不会发 GPT-5、也不会发搜索引擎，“但我们一直在努力开发一些我们认为人们会喜欢的新东西！对我来说感觉就像魔法一样。”他把这件事描述得更小了。

或许，人们是在一种低期待中观看这次 OpenAI 的发布会。但最终，他们收获到的是一次强烈的震撼。这或许正是 OpenAI 想要的反差效果。

无论是最初的 GPT-3.5，还是去年这个时候的 GPT-4、去年年底的 GPTs，又或者是今年年初的 Sora——OpenAI 再一次证明，它不会让世人失望。尽管 Google、Claude、Character AI、Perplexity 等竞争对手正攫走更多新用户以及资本的青睐，但 OpenAI 依然证明自己有能力引领科技创新的“高地”。

ChatGPT 和其他聊天机器人的访问量对比｜图片来源：Similarweb

在此次 OpenAI 推出基于 GPT-4o 的“超级智能助理”之后，这似乎也将成为接下来各科技大厂争相追赶的方向。

据外媒报道，近期谷歌一直在测试使用人工智能打电话。传闻，它将推出一款名为“Pixie”的多模态个人助理，作为“Google Assistant”的替代品。它可以通过摄像头查看物体，并执行人类指令。这在明天的 Google I/O 大会上就会见分晓。

而近日，外媒亦报道，苹果即将与 OpenAI 达成协议——在 6 月份苹果举办的年度全球开发者大会上，苹果或将在 iOS 18 中引入由 ChatGPT 提供支持的“聊天机器人”，这将对苹果的个人语音助理 Siri 带来颠覆性影响。

难以想象，仅仅一年半的时间，OpenAI 就将技术推到了今天这个地步，让“超级助理”的想象这么快发生在我们眼前。然而，这也只是 OpenAI 释放的技术实力的一角。毕竟，我们今天谈到的仅仅是 GPT-4 的更新，还没有说到 GPT-5。OpenAI 到底会给我们带来多少震撼，以及随之会产生多少忧虑，都是未知的问题。

如果站在科技的未来隧道往回看，今天 GPT-4o“超级语音助理”的诞生，或许会成为科技史上一个标志性的时刻。但或许又如同 OpenAI 首席运营官 Brad Lightcap 几天前所说，“在接下来的 12 个月里，我们应该会觉得今天使用的（AI）系统糟糕得可笑。”

本文来自微信公众号：极客公园（ID：geekpark），作者：黎诗韵，编辑：靖宇

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

五菱无法复制五菱

Previous 2024年5月14日

5980的学费，葬送了百度公关老大的职场路？却掀起了参哥的传说？

Next 2024年5月14日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

ChatGPT-4o，OpenAI的一小步，人类“AI助理”的一大步

相关推荐