ChatGPT更像人了

2024年5月14日 15:05 • 未来科技

当GPT-4o驱动的ChatGPT用饱含情绪的声音和人聊天，还能看、能听、能说会唱，你就知道，科幻已经照进现实了。

比如，当用户求助ChatGPT，说自己马上要参加OpenAI的面试，ChatGPT接过话开玩笑地说：“OpenAI，嗯。

图/OpenAI

也就是说，GPT-4o驱动下的ChatGPT，不再是一个只追求性能的AI工具，而是开始主动提供“情绪价值”。

ChatGPT又又又更新了，这一次，OpenAI没有大谈数字和术语，而是回归到了“聊天机器人”本身。

北京时间5月14日凌晨1点，OpenAI举行春季发布会，公司首席技术官米拉·穆拉蒂（Mira Murati）主持，现场展示了ChatGPT的更新。

发布会的核心，是最新多模态大模型GPT-4o。和之前发布新模型必须强调训练数据量、各项测试成绩等“硬核指标”不同，GPT-4o的升级主要在使用体验上。

相较上一代GPT-Turbo，GPT-4o可谓是打通了任督二脉，各项技能融会贯通，和人的互动更灵活、更快速——换言之，更像“人”了。

用户可以以文本、音频、图像任意组合输入，得到ChatGPT实时文本、音频、图像的任意组合输出。在交流过程中，ChatGPT不再等待若干秒才响应，而是实时回复，还能被随时打断。OpenAI的CEO山姆·奥特曼（Sam Altman）将之称为“人类级别的响应”。

OpenAI现场展示了和ChatGPT的若干互动，包括：实时对话交互、语音多样化（应用户需求使用不同情绪、语调等）、视频指导做题、视频识别环境和人（包括人的情绪）、以桌面应用形式辅助编程、实时翻译。

OpenAI同时还放出了预先录制的展示样例若干，包括：两个GPT-4o交流和对唱、唱摇篮曲、在线会议应用、毒舌讽刺、视频识物并给出西班牙语单词、帮助面试准备、和狗互动等。

OpenAI本次现场演示选择的声音是“Sky”，听起来酷似好莱坞明星（寡姐）斯嘉丽·约翰逊。让人很容易联想到科幻电影《她（Her）》，其中AI助手正是由斯嘉丽配音。电影中男主角从使用AI助手，一步步走向一段无果的人机恋情。

奥特曼自己也在X上发了这部电影的名字：her。还有人干脆把电影海报里的脸换成了奥特曼的。

当GPT-4o驱动的ChatGPT用饱含情绪的声音和人聊天，还能看、能听、能说会唱，你就知道，科幻已经照进现实了。

更关键的是，穆拉蒂现场宣布，GPT-4o免费向所有人开放。也就是说，随着后续更新，免费用户也可以直接使用GPT-4o，只不过每日限制条数比付费用户少，达到限制后会自动切换回GPT-3.5。

以及，ChatGPT的桌面应用将上线苹果电脑系统Mac OS，Windows版本将在今年晚些时候推出。

一

如果用四个字总结GPT-4o的特点，就是：更通人性。

而这体现在两方面，一方面是GPT-4o多模态融会贯通，反应速度也大大提高，交互方式更接近于人；另一方面，是GPT-4o驱动下的机器人明显更活泼，更乐于表现出人类情绪。

先说GPT-4o的多模态能力，准确来说，GPT-4o最亮眼的是跨模态的能力。

一年多以前，2023年3月，OpenAI发布了多模态模型GPT-4。从那时起，人们就可以给GPT-4发图片让它帮忙分析，也可以发文件、语音聊天。但是文本、图像、语音之间是有“壁”的。

比如你想让ChatGPT帮忙解一道数学题，就只能截图或者复制题目，发给ChatGPT。如果想听ChatGPT语音讲解，得先在文本框发完之后，再切到语音。

但在GPT-4o下，你可以直接使用桌面应用，将ChatGPT打开放在一边，和它聊着天的同时，用“拍摄”功能给它看你电脑桌面的内容，它就可以在对话中为你答疑解惑。

在一则演示中，用户将ChatGPT桌面应用和做题界面同时打开。ChatGPT不直接给出答案，而是以问题引导的方式，有问有答地一步步带用户解了一道几何题。

图/OpenAI

或者，你也可以打开摄像头，ChatGPT也可以“看”着纸面指导解题。

图/OpenAI

在所有的演示当中，最让人直呼“恐怖”的还是视频对话：用户打开摄像头，让ChatGPT“看”到当下，并进行互动。

用前置镜头自拍，ChatGPT不仅能识别用户的情绪，如“看起来很开心，甚至可以说是兴奋的”，还能从用户背后的画面判断其身处的环境，如“看起来你在一个摄影棚中，背后有一些灯光，你的胸前还别着麦克风，可能在录制视频之类的”。当有另一个人进入镜头并且做鬼脸的时候，ChatGPT也准确指出了这一“不太寻常”的情况，并加以描述。

图/OpenAI

用后置镜头，ChatGPT就可以和用户共享视角。如在语言学习的过程中，打开摄像头让ChatGPT用某种语言说出物品的名称。或者可以为视障用户提供指引，告诉用户“有一辆计程车来了，就是现在，招手吧”。

再加上用户话音刚落ChatGPT就接话，以及用户可以直接打断ChatGPT，它也都能接着聊，这就使得整体体验更像人与人的对话，快速且灵活。

顺带一提，由于GPT-4o的响应速度快、可打断，其实时翻译效果非常惊艳。两个语言不通的人将GPT-4o驱动的ChatGPT放在中间充当翻译，就可以聊天了。

总而言之，GPT-4o驱动下的ChatGPT，不再仅仅是一个什么都会的应用，而是真正进化成了一个“AI助手”。

二

再说情绪，这一点不容小觑。

从2022年11月ChatGPT上线开始，这款聊天机器人在很长一段时间里都给人一种不苟言笑的印象。这很有可能是OpenAI为了避免麻烦而有意为之的，ChatGPT不仅回答起问题一板一眼，而且只要有机会就会向用户强调“我只是个机器人，我没的感情”。用户如果想要ChatGPT更“放松”，需要给出明确的指令。

但GPT-4o驱动下的ChatGPT明显不同了。在没有预先指令的情况下，ChatGPT不再刻意避免像人类，而是相反。

比如，当用户求助ChatGPT，说自己马上要参加OpenAI的面试，ChatGPT接过话开玩笑地说：“OpenAI，嗯？怎么听起来这么耳熟嘞？”紧接着窃笑，转而笑着亢奋地接着说：“开玩笑的！太棒了洛基（演示人员的名字）！什么样的面试？”

图/OpenAI

当洛基寻求外形上的建议时，ChatGPT用幽默的方式表示头发需要整理，说他“看起来有写了一整夜代码的氛围”。洛基戴上了一顶遮阳帽，ChatGPT立刻“哈哈哈”地大笑，说他“肯定会很显眼”，但在面试中不合适，像朋友一样劝他放弃这样做。

图/OpenAI

也就是说，GPT-4o驱动下的ChatGPT，不再是一个只追求性能的AI工具，而是开始主动提供“情绪价值”。

在ChatGPT走严肃路线的两年里，不少竞品都以更活泼、更“通人性”的姿态出现，并俘获了不少用户的心。

如Inflection.AI曾推出的机器人Pi，主打的就是“陪伴”，总是语气温柔，对用户充满关怀，不到一年的时间里就做到百万日活用户，平均对话持续时间超过半小时。

埃隆·马斯克（Elon Musk）的人工智能公司xAI的大模型Grok，则因其毒舌一经上线就吸引不少关注。

就连上一波AI聊天机器人热潮也深谙此道。2011年苹果将Siri集成到iPhone 4S中，AI聊天机器人成赛博玩具，人们热衷于“调戏Siri”，让它唱歌、讲笑话。Siri虽不算神通广大，但提供了足够多的乐趣。中国用户熟悉的天猫精灵、小爱同学等，也无不有一个俏皮的“人设”。

但后来的故事我们都知道了，上一代AI助手因其技术限制，能做的实在有限，“俏皮”来自有限的预先设置，还因为理解能力不佳、不够灵活，渐渐被用户钉上“人工智障”的耻辱柱。

在2024年，人们曾经对Siri们抱有的期待——一个既能当得力助手帮忙做事，又能当赛博玩具聊天嬉笑的AI——终于在GPT-4o身上有了着落。

三

去年5月，比尔·盖茨（Bill Gates）曾在AI Forward 2023活动上谈及AI，对AI的前景很看好：“你永远不会去搜索网站了，也不会再去亚马逊了。”

而能干掉搜索和电商的，在盖茨眼中不是别的，正是未来顶级的AI助理：“无论谁赢得了AI助理的竞赛，这都是一件大事。”

面向C端用户，AI助理的战事已经打响。

微软已经将Copilot带进Windows11，依托以侧边栏工具的形式辅助用户；谷歌在内部整合了谷歌大脑和DeepMind之后发布拳头模型Gemini，未来有望更加深入地嵌入各个产品和应用，如Android、谷歌搜索和Workspace；亚马逊则在去年9月发布新款Alexa，接入大模型。

苹果也有明显的战略倾斜，加快AI步伐。6月，苹果将举行全球开发者大会（WWDC24），iOS18是否会以人工智能做软件更新是外界关注的焦点。外界普遍认为，苹果会对Siri进行大模型重塑。

今年3月之后，接连有几个消息传出。先是彭博社援引知情人士透露，苹果正在就将谷歌Gemini大模型内置于iPhone进行谈判，同期也在与OpenAI进行类似谈判。而后是苹果CEO蒂姆·库克（Tim Cook）访华之后，《科创板日报》报道苹果将与百度进行技术合作，在今年即将发布的iPhone 16、Mac系统和iOS 18提供AIGC功能。

用GPT-4o，OpenAI再次给世界亿点点震撼，接下来的AI助手竞争只会更加精彩。

“新的语音（和视频）模式是我使用过最好的计算机界面。这感觉就像电脑里的人工智能，它的真实性还是让我有点吃惊。达到人类水平的反应时间和表达能力是一个很大的变化。”在随GPT-4o发表的一篇博文中，奥特曼写道。

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

椰树画风大变，2年卖2.3万元不够交罚款40万

Previous 2024年5月14日 15:00

科沃斯梦碎“扫地茅”，钱东奇跌落“风口”

Next 2024年5月14日 15:10

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

ChatGPT更像人了

相关推荐