OpenAI下周发布的大更新，可能比GPT-5更值得期待

2024年5月12日 15:57 • 未来科技

随后，OpenAI。

不是GPT-5，不是AI搜索引擎，而是AI语音助手。

上周，有风声传出，OpenAI。

实际上，OpenAI。

此前，OpenAI。

更重要的是，知情人士还透露，OpenAI。

OpenAI的大招，或许早已埋下伏笔

OpenAI。

不过，抱着赢家通吃的法则，OpenAI。

彭博社昨日报道称，OpenAI。

如今，OpenAI。

随着 Claude 和 Llama 模型相继进入“3”时代，本该早早提上日程的 GPT-4.5/5 却迟迟不露面。

不过，别急，在大餐到来之前，一些开胃小菜已经准备好了。昨日凌晨，OpenAI 宣布将于 5 月 13 日太平洋时间 10:00 直播演示一些关于 ChatGPT 的大更新。

随后，OpenAI CEO Sam Altman 引述该消息帖子称：

不是 GPT-5，也不是搜索引擎，但我们一直在努力开发一些大家会喜欢的新东西！对我来说，它就像魔法一样。

不是GPT-5，不是AI搜索引擎，而是AI语音助手？

为啥要特意强调新品不是 AI 搜索引擎呢？这得从最近传出的一则小道消息说起。

上周，有风声传出，OpenAI 正准备推出一款 AI 搜索引擎，并且矛头直指 Google 下周即将召开的 I/O 大会，一时间让无数翘首以待的吃瓜群众迎来了久违的亢奋。

遗憾的是，Altman 的帖子给这则流言画上了终止符号，发布会的确如预测般如期举行，但 AI 搜索引擎并不是主角，甚至连配角的位置都未必能拿到。

真正的主角已经在 The Iformation 的爆料中泄露了一些关键踪迹。

报道称 OpenAI 下周可能会展示一种新 AI 技术：它不仅能通过声音和文字跟人交流，还能识别物体和图像，并且逻辑推理能力也比现在市面上的产品要强。

这也是 Altman 一直在追求的目标，他想要开发出一种超级智能的 AI，像电影《Her》里的虚拟助手一样，能让 Siri 等现有的语音助手变得更有用。

其语音助手能做的事情可不止一星半点，比如帮学生辅导作业，或者在需要的时候告诉你周围环境的信息，又或者翻译个标志，教你怎么修车。

目前，这项技术已经在客服行业“攻城拔寨”。知情人士透露，新技术的音频功能可以让这些 AI 自动代理更好地理解来电者的语气，甚至还能判断他们是否在“阴阳怪气”。

实际上，OpenAI 在转录音频和文本转语音等领域早有建树，无论是上个月推出的“语音引擎”（Voice Engine），还是更早些时候发布的 TTS（文本转语音）软件，都有着不俗的表现。

而爆料者称，新模型将把这些功能合二为一，构建一个更懂图像和音频的多模态模型，响应速度也更快。

作为 OpenAI 的最大金主，微软也考虑用该技术来提升语音助手，或者想办法让这些技术能在更小的设备上运行，比如可穿戴设备。

目前尚不清楚 OpenAI 什么时候会把这个新功能开放给付费用户，但知情人士透露，OpenAI 的最终打算是将这些功能添加到免费版里。

不过，由于这些模型参数规模庞大，现在只能在云端运行，并且还需要互联网连接。要让复杂的对话 AI 变得足够小，支持在设备上运行，可能还需要数月甚至数年的时间。

除了备受关注的新模型，一些爆料的细枝末节同等重要。

The Information 指出，得益于即将推出的定价模式，一贯“烧钱”的 OpenAI 今年预计将迎来数十亿美元的收入。

如果客户通过预付费预定 Tokens，就能享受高达 50% 的折扣。这种预订方式的折扣在云计算领域很常见，像 Microsoft Azure、Google Cloud 和 Amazon Web Services 都有这样的优惠。

此前，OpenAI 已经为开发者提供了一种降低成本的方法，其在 4 月份推出新的应用程序编程接口——Batch API。如果开发者愿意批量上传模型查询并等待最长达 24 小时，就能享受到更便宜的价格。

一些 AI 服务器经销商曾表示，在他们的软件上运行开源模型比使用 OpenAI 的模型便宜六倍。而这种更灵活的定价，将有助于 OpenAI 更好地与其他模型开发人员和 AI 服务器经销商竞争。

更重要的是，知情人士还透露，OpenAI 可能会在年底前完成 GPT-5 的开发并公开发布。

OpenAI的大招，或许早已埋下伏笔

OpenAI 在生成式 AI 的赛道上一路狂奔，将所有的竞争对手们远远地甩在身后。

去年 12 月份，Google 挟 AI 大潮而来，发布了当时号称史上最强大模型 Gemini 1.0。Gemini 超大杯在视频 demo 中，上至识别图像、玩石头剪刀布，下至人性化语音交流，都表现得游刃有余，但仅仅一天时间，视频就被曝出“造假”的丑闻。

此后，Gemini 大模型不断迭代升级，但依然并没有达到理想的程度。直到 Gemini 1.5 Pro 的出现，除了分析图像和文本，还能一次性处理长达 9.5 个小时的音频，捕捉音频当中的语调情绪等。

正如上文所说，The Information 的报道中着重提到 OpenAI 的语音助手能够听懂别人的语气。现在，OpenAI 即将发布的 AI 语音助手似乎也有意定点狙击 Google 1.5 Pro 的这项特长。

对 Google 的另一重打击则潜藏在冰山之下，尽管 Altman 否认本次直播的重头戏并不是 AI 搜索引擎，但也没否认 AI 搜索引擎存在的可能性。

Altman 早些时候在接受采访时说到，世界不需要另一个 Google，并对 Google 利用广告盈利的方式嗤之以鼻。现在看来，他似乎已经为 OpenAI 找到了一条新路。

至于 OpenAI 的 AI 语音助手会是什么样子，我们现在还不得而知，但前段时间 Hume AI 向大众开放的旗下产品——同理心语音界面（EVI），给我们打了个样，其判断情绪的能力甚至被誉为可能是未来 Siri 的样子（具体可回看 APPSO 此前的文章：第一个具有情商的聊天机器人来了，这可能是未来 Siri 的样子）。

从 EVI 的身上，我们或许也能看到 OpenAI 语音助手的雏形，那就是更通人性，更有人味。和 EVI 聊天的体验更接近和真人交流。

不过，抱着赢家通吃的法则，OpenAI 下周推出的 AI 语音助手也很有可能将 EVI 扼杀在摇篮里。

最近 AIPRM 首席工程师 Tibor Blaho 也在社交平台 X 上曝光了 ChatGPT 即将到来的功能和界面。

其中，ChatGPT 的网页版将新增一个语音模式功能。这个功能会在页面顶部的导航栏添加一个语音按钮，用户可以通过这个按钮交互式地启动或结束对话。在对话进行时，系统还会实时将语音转换成文字。

同时，自定义的 GPT（小部件）、模型、写作、上下文连接器、浏览和数据分析功能也一应俱全，有望为 AI 语音助手能力的涌现打好“地基”。

比起与 Google 等竞争对手的剑拔弩张，OpenAI 与苹果的关系显得融洽多了。

彭博社昨日报道称，OpenAI 即将与苹果达成合作协议，将 ChatGPT 服务整合到 iOS 18 操作系统。届时，视觉和音频功能改进后的生成式 AI 将有望大幅改进 Siri。

《纽约时报》报道称，苹果两名高管在去年初花了数周时间测试 OpenAI 的 ChatGPT 之后，便作出了给语音助手 Siri 进行“大脑移植”的决定。

改进后的 Siri 将于今年 6 月份的 WWDC 大会亮相。新 Siri 的对话性更强、用途更广，其 Siri 的底层技术将包括一个新的生成式 AI 系统，支持聊天功能，而不是一次回答一个问题。

而这个生成式 AI 系统的角色，很有可能正是由 OpenAI 下周亮相的 AI 技术扮演。

在用户的产品体验中，效率是最直接的语言。

前阿里顶级 AI 科学家贾扬清对 ChatGPT 的新 AI 搜索功能赞不绝口，因为相较于其他的 AI 搜索引擎/答案引擎，只有 ChatGPT 能够真正做到访问实际地址，让答案触手可及。

这种省却繁琐步骤的行为和当红 AI 炸子鸡 Rabbit R1 追捧的理念如出一辙。尽管 Rabbit R1 在众声唾骂中沦为中看不中用的鸡肋产品，但其所谓的大行为模型（LAM）提到的核心理念依然值得学习，即理解人类的意图，转化为可操作的步骤并实时响应。

在“Siri 之父”Dag Kittlaus 等人的最初构想中，也提出过相似的概念：Siri 应该是一个能够迅速而精准地获取信息的助手，一个能够熟练处理各种复杂任务的智能助理。

如今，OpenAI 下周亮相的 AI 语音助手或许有望帮助苹果实现最初版 Siri 的愿景。

有趣的是，我们在两个月前报道过，一些企业客户已经提前体验了最新模型的演示以及与之相配套的 ChatGPT 增强功能。

一位体验过 GPT-5 版本的 CEO 提到，OpenAI 暗示了模型其他尚未公开的特性，包括能够调用 OpenAI 正在开发的 AI 代理来自动执行任务。

另外有报道指出，Altman 与前苹果首席设计师 Jony Ive 正致力于推出一款 AI 硬件，可能会从投资者那里筹集高达 10 亿美元的资金。其中 OpenAI 对话式 AI 技术有望成为该设备某些功能的核心。

如今看来，这些或许也是 Altman 早早埋下的伏笔。

此前，Altman 在接受采访时卖关子说，在 OpenAI 创造出 AGI 之前，将会有一大堆疯狂爆炸的事情发生。下周发布的新产品不外乎是这当中的小小一笔。

更多具体的信息，仍有待下周揭晓。现在只需调好闹钟，届时 APPSO 将带来最新的报道。

本文来自微信公众号：APPSO （ID：appsolution），作者：莫崇宇

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

小心，最新AI看一眼照片就定位你在哪里，精确到经纬度

Previous 2024年5月12日

微软打破Decoder-Only架构，大幅降低GPU内存需求？

Next 2024年5月12日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

OpenAI下周发布的大更新，可能比GPT-5更值得期待

相关推荐