视觉语音交互毫无延迟，都成精了居然还不是GPT-5?

2024年5月14日 15:15 • 未来科技

OpenAI发布了一个叫做GPT-4o的新模型，它的确不是GPT-5，但看了它能做的事情，再想到它甚至不是OpenAI正在砸更多的钱和智慧在做的GPT-5，你只会感觉更“可怕”。”

然后展示者打开摄像头，实时写了一个数学方程题，然后让ChatGPT一步一步地提醒和讲解他在做的解题思路。

展示者开始摄像头自拍，而ChatGPT立刻分析道：

“你看起来是个桌子。

OpenaAI给2024年5月14日的这场发布会取名“春季功能更新”，就像它们形容当初ChatGPT的发布是一次“低调的研究预览”一样。

而就像那次一样，一切也都回不去了。

OpenAI发布了一个叫做GPT-4o的新模型，它的确不是GPT-5，但看了它能做的事情，再想到它甚至不是OpenAI正在砸更多的钱和智慧在做的GPT-5，你只会感觉更“可怕”。

发布会一开始，OpenAI的CTO Mira Murati 介绍了新模型GPT-4o（是的，Sam Altman全程没有现身）。她强调这个模型是要给所有人使用，并且通过交互的更新让人们忘了UI的存在。因为OpenAI的愿景正是如此。

而到此这似乎还很正常。

“不过是新模型而已嘛。”

图/OpenAI

但直到demo环节开始，一切越来越离谱。

首先是一个实时对话的展示。

“我正在做demo，我有点紧张。”Mark说。然后他开始故意喘息的非常快。而GPT识别出了他的呼吸。

“哦，哦，哦，别紧张，慢下来。你不是个吸尘器。”ChatGPT的女人声音抑扬顿挫，没有任何延迟。

是没有任何延迟。你不需要等她，她也不会让你等，当你直接开始说接下来的话，她会立刻停下来听，并立刻做出调整。

而且在这些回答中，它甚至有喘息和犹豫的声音。

另一个很可怕的细节是，这些demo全程不需要任何多余的按键操作。

对，声音的对话就像是在“打电话”。

另一个demo是假设要给朋友讲一个关于机器人的睡前故事。

提出需求后，ChatGPT开始正常的讲故事。

但听的人并不喜欢，于是直接打断说，能不能讲得更有感情更drama一点。

ChatGPT立刻调整，增加了一些悬疑感。

“不不不，我希望把感情和drama感拉满。”听者再次直接打断。——也就是说ChatGPT在实时听着你的声音。

然后ChatGPT变成了一个非常浮夸的故事讲述者。

“你能不能用机器人的声音给我讲故事。”Mira又直接插话。

而ChatGPT立刻开始模仿机器人。注意，是模仿，也就是它的声音一直是那个女声，一切听起来就像家长在讲睡前故事时候会做的那样。

“你能最后唱一首歌把这个故事结束么。”听者又提了要求。

然后ChatGPT立刻唱了一首歌。根据刚才的故事，实时，改编，并直接唱出来的一首歌。

“如果你之前使用过我们的语音模式，你会注意到几个关键的区别。首先，你现在可以打断模型了。你不需要等它结束你的回合，你可以随时开始说话，随时插话。其次，模型的响应是实时的。这意味着你不需要再经历那种尴尬的两到三秒的延迟，等待模型回应。最后，当我刚才呼吸非常急促时，模型能够感知到情绪。它会提醒你，或许你需要放松一下，你的节奏快得有点过头了。所以你知道，它确实具有全面感知情绪的能力。不仅如此，这个模型还能以各种不同的情感风格生成声音，它真的具有非常广泛的动态范围。”

如果你是个创业者，或者熟悉大模型应用创业环境的人，你会立刻意识到。

又有一批创业公司死了。

之后是视觉能力的展示。

对，在同一个产品上。一个据说要免费提供给全世界所有人的产品上。

他先是展示了一个通过摄像头获得视觉能力，然后实时指导你的数学解题的demo。

甚至因为“幻觉”问题，ChatGPT在还没打开摄像头时候就自信满满的说理解了。当展示者提示后，她说“oops，我太兴奋了。”

然后展示者打开摄像头，实时写了一个数学方程题，然后让ChatGPT一步一步地提醒和讲解他在做的解题思路。ChatGPT很好地做到了。

像一个很有经验有耐心的数学老师那样。

这还没完。

似乎是为了打脸那些录制好加速后的demo，他们还实时收集了X上的反馈。其中一个挑战是：打开摄像头让ChatGPT实时分析你的情绪。

展示者开始摄像头自拍，而ChatGPT立刻分析道：

“你看起来是个桌子。”——因为打开摄像头时，最先打开的是前置的摄像头，对准的是桌子。

“不不不，那是之前的，你不用担心，我不是个桌子。”分享者说到。

“哈哈，那就合理了。”Chat GPT说到。

这里看的时候，估计很多人跟我一样惊了一下。

然后ChatGPT立刻分析：“你看起来非常开心。大大的笑容，甚至有一点兴奋。你想分享一下让你这么开心的原因么？”语气里甚至能听到好奇，以及斟酌语句的感觉。

“因为我在做实时展示，让大家看看你有多出色。”讲者说。

“哦，拜托，别让我脸红了。”ChatGPT带着笑声说到。

瞬间，《Her》降临。科幻成了现实。

看到这，所有人估计都明白了Sam Altman此前卖关子时候说的“magic”是什么。

在惊叹之余，还是再总结一下：

1. 这些操作全程没有多余的点击操作的交互。

2. 没有丝毫延迟的视觉和声音反馈。

3. 不仅能感受到你的情感，ChatGPT也自带情绪和情感。

4. 能对桌面等更数字化的世界有更全面的信息感知。

5. 全部集成在一个产品里，而且可能是对所有人免费的。

哦对，以及，这还不是GPT-5。

发布会后，OpenAI也在官网更新了这次发布的模型的具体信息。

还记得ChatGPT第一次出来时，有人形容跟它第一次亲密接触的感受：

当你通过打字跟它交互的时候，等待它回答的过程仿佛能想象到对面坐着一个人，正在转笔，思考如何回答你的问题。

而今天，不只是你的叹气，情感和喘息能被AI感受到，你也能直接感受到对面的“人”的叹气，情感，和喘息。

在电影《Her》里，主人公最终爱上了这个AI助手。我们不知道GPT-4o加持下的新ChatGPT会带来什么。更不知道GPT-5出现后会发生什么。

一切都太快了，都回不去了。

最后，对所有开发者和创业者，这次发布又意味着什么？

也许这句当时有些被人不以为意甚至觉得冒犯的话值得再看一遍，它可能说明了一切：

目前有两种构建人工智能的策略：一种是假设模型不会改进，然后在现有的能力上建设一堆小东西；另一种是假设OpenAI将保持相同的增长轨迹（继续疯狂迭代）。我认为，95% 的人应该押注在第二种策略上。我们有改进模型的使命，不是我不喜欢你们，但我们将碾压你们。 ——Sam Altman，2023年4月17日

本文来自微信公众号：硅星人Pro（ID：Si-Planet），作者：王兆洋

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

短期市值vs长期价值：极氪美股首日大涨近40%，打响中国

Previous 2024年5月14日 15:11

“联想系”模型公司完成近亿元Pre-A轮融资，AI+制造

Next 2024年5月14日 15:21

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

视觉语音交互毫无延迟，都成精了居然还不是GPT-5?

相关推荐