免费的GPT-4o足够强，但治不好OpenAI的产品焦虑

2024年5月14日 10:07 • 未来科技

更致命的是，ChatGPT和GPT-4之后，OpenAI似乎一直没能推出相同重量级的AI产品，这些都在不断消磨外界对OpenAI的期待与信心。

从“无心插柳”的ChatGPT，到“只可远观”的Sora、“虚晃一枪”的SearchGPT，再到今天的GPT-4o，都只是OpenAI向世界展示其AI能力的“半成品”，而并非一个真正能够说服用户的商业产品，这在某种程度上限制了OpenAI用户的增长。

5月14日凌晨1点，继OpenAI在AI搜索上“虚晃一枪”之后，让萨姆·奥尔特曼（Sam Altman）感觉“像魔术一样”的新模型终于浮出水面。

不是GPT-5，不是AI搜索，而是最新旗舰生成式AI模型GPT-4o！

GPT-4o（“o”代表“omni”，意为“全能的”）是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。

整场发布会时长仅30分钟，由OpenAI CTO米拉·穆拉蒂（Muri Murati）带来主题演讲。“这是我们第一次在易用性方面真正迈出一大步。”穆拉蒂在公司旧金山总部的现场演示中说道， “这种互动变得更加自然，也更加容易。”

值得注意的是，此次发布会上，OpenAI CEO萨姆·奥尔特曼并未现身。在OpenAI官网披露的GPT-4o贡献者中，依然没有看到OpenAI首席科学家伊利亚·苏茨克维尔（Ilya Sutskever）的身影。

一、“GPT-4o是我们最好的模型”

整场发布会的主角，就是OpenAI最新的旗舰生成式AI模型GPT-4o。

OpenAI官网博客显示，GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步。它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。

相比今年2月的Sora， OpenAI此次发布显得更有诚意——GPT-4o将免费提供给所有用户使用，Plus用户则可以享受到5倍的调用额度。

穆拉蒂表示，GPT-4o将提供与GPT-4同等水平的智能。

同时，GPT-4o的运行速度大大提升，最大亮点在于其语音交互模式采用了全新技术，让聊天机器人对话的响应速度大幅提升。OpenAI官网博客显示，GPT-4o在谈话中对音频输入的平均响应时间为320毫秒，最短的响应时间为232毫秒，与人类的响应时间相似。

GPT-4o还有超高的“语言天赋”，能支持50种语言，并显著提高了非英语语言的性能，包括改进分词器以更好地压缩其中的许多语言：

根据传统基准测试，GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉功能上设置了新的高水位线。

开发人员现在可以在API中访问GPT-4o。与GPT-4 Turbo相比，GPT-4o速度提高了2倍，价格降低一半，速率限制提高5倍。

在现场演示环节，GPT-4o更是展示了各类花式操作——它能根据演示者的实时要求变换语音语调，演绎话剧；能实时读图；甚至还跟演示者们开玩笑，还可以唱歌。

此外，OpenAI还发布了桌面版的ChatGPT和新的用户界面。

用户可以向ChatGPT（由 GPT-4o 提供支持）提出问题，并在ChatGPT回答时打断它。OpenAI表示，该模型提供“实时”响应能力，甚至可以感知用户声音中的情感，从而生成“一系列不同情感风格”的声音（包括唱歌）。

GPT-4o还升级了ChatGPT的视觉能力。给定一张照片或一个桌面屏幕，GPT-4o可以快速回答相关问题，主题范围包括“此软件代码中发生了什么？”到“这个人穿什么牌子的衬衫？”

“我们认识到这些模型正变得越来越复杂，” 穆拉蒂说道，“但我们希望用户与人工智能模型的交互体验能够更加自然、轻松，让用户可以将注意力完全集中在与模型的协作上，而无需在意界面本身。”

穆拉蒂还透露，未来几周内，GPT-4o将分阶段集成至OpenAI的各个产品之中，而且会在ChatGPT Plus中推出新版语音模式GPT-4o的alpha版。

OpenAI研究员威廉·费达斯（William Fedus）表示：“GPT-4o是我们最先进的新前沿模型。我们一直在LMSys arena上测试一个版本：im-also-a-good-gpt2-chatbot。”

“这不仅是世界上最好的模型，而且可以在ChatGPT中免费使用，这对于前沿模型来说是前所未有的。”费达斯补充道，“我们发现在更难的提示集上——特别是编码——存在更大的差距：GPT-4o和我们之前的最佳模型相比，实现了+100 ELO。”

奥尔特曼也在X上表示：“GPT-4o是我们最好的模型。”

OpenAI此次发布几乎在想尽办法“讨好”用户，在“交互体验”上下足了功夫，直接免费开放使用更让用户感受到了OpenAI的诚意。

但“甲子光年”发现，在这种诚意背后，这家已被捧上神坛的AI创业公司，正深陷于某种焦虑之中。

二、OpenAI的产品焦虑

虽然奥尔特曼今天并未到场，但他曾在5月11日亲自下场预告。可是翻翻评论区，网友们的关注点似乎有点儿跑偏。

有人喊话奥尔特曼让OpenAI首席科学家伊利亚回归：

有人关心GPT-5到底何时发布：

伊利亚的去向和GPT-5的发布是OpenAI留给外界的两大谜题，也是外界最关心的两大问题。

2024年，人们对OpenAI最大的期待便是GPT-5。然而，每当奥尔特曼在访谈中被问及GPT-5相关进度时，却总是支支吾吾、讳莫如深。奥尔特曼在普罗大众心中的画像也逐渐从一位开天辟地的怪力少年，转变为一个在各国政客间长袖善舞，在各种场合大打太极的“成熟企业家”。

更致命的是，ChatGPT和GPT-4之后，OpenAI似乎一直没能推出相同重量级的AI产品，这些都在不断消磨外界对OpenAI的期待与信心。

今年2月，OpenAI发布Sora——1份技术报告、32篇引用论文、一些画面堪比电影镜头的demo和1个故作高深的“世界模拟器”概念，这就是OpenAI给出的全部，没有技术论文，也没有可公开体验的产品入口。

“甲子光年”曾向多位AI从业者提问：“ChatGPT和Sora，谁带给你的震撼更大？”各位受访人几乎不约而同地回答：“Sora有震撼，但没ChatGPT的震撼大。”

造成这种感官差异的直接原因是，ChatGPT能直接体验，但Sora不能。虽然ChatGPT也会犯一些荒唐的错误，但真实的交流感带给人们的震撼，远远大于只可远观、不能上手体验的Sora。甚至不少声音开始猜测，Sora精美的Demo或许是工程师在背后屡次微调的结果，Sora实时交互的结果“可能远不如此”。

对于外界的猜测、质疑，OpenAI并未回应，而是迅速扔出下一个“靶子”——AI搜索。

过去一周，外媒不断有消息传出OpenAI将推出AI搜索产品，更有媒体猜测，谷歌一年一度的I/O大会即将于5月14日举办，而OpenAI此举是针对谷歌的精准狙击。

OpenAI Search 测试界面，图片来源：赛博禅心

不过，AI搜索的热度炒了半天，所谓的AI搜索产品最终只是虚晃一枪。

昆仑万维董事长兼CEO方汉近期在一次直播中直言：“我觉得搜索引擎对于OpenAI的用户增长也不会有根本性的变化。”有数据显示，从去年月5开始，ChatGPT的C端增长便逐渐触顶。

而产品焦虑一日不解，OpenAI距离“伟大的公司”就永远有一墙之隔。

三、GPT-4o能治好吗？

今天再次复盘ChatGPT的成功，我们会发现，这是一次不可复现的“无心插柳”。

2022年中，OpenAI开始训练GPT-4。半年后的11月30日，OpenAI发布ChatGPT，全球各界都为之颤动。

OpenAI内部曾对是否发布ChatGPT有过很长一段时间争论，因为谁都无法100%确认这是正确的事情。

彼时，OpenAI对自己的定位是一家为开发人员和企业构建工具的公司，而非直接面向普罗大众。因此，OpenAI要面临的核心挑战，是ChatGPT的使用门槛是否足够低，以至于能让完全不懂技术的人用起来。

在此之前发布的视觉模型DaLL-E已经让OpenAI尝到了甜头。但ChatGPT能复制DALL-E的成功吗？

奥尔特曼是名副其实的“冒险派”，他鼓励公司发布ChatGPT，“尝试一下”。在他看来，用户和模型进行文本形式的交互会产生一些很重要的个性化结果。

很快，用户的热情证明，这次试验无比成功。从2022年11月上线的第一个完整月（2022年11月）开始，到12月，这一数字达到了2.66亿人次，月环比增长了近75%。到2023年1月，总访问量翻了一番多，达到6.16亿人次，2月就首次突破10亿人次大关。

这突如其来的成功，在OpenAI的意料之外。

“我们并没有认为GPT-3系列模型已经跨越了将其应用于消费者或企业的门槛，本以为GPT-4会成为第一个跨越这道门槛的模型，所以我们的很多计划和预测都是围绕2023年3月发布GPT-4来安排的。”OpenAI COO 布拉德·莱特凯普（Brad Lightcap）此前在英伟达2024 GTC大会上分享道。

按照莱特凯普的说法，OpenAI用了6个月来适应ChatGPT的爆炸性增长，并确保公司有足够的GPU来满足用户的需求。

直到2023年后半年，OpenAI开始感受到了来自行业一线的真实需求。OpenAI曾公布，截至2023年8月，80%的财富500强公司已采用ChatGPT。80%的统计数据是指拥有注册ChatGPT账户的财富500强公司的百分比，由与企业电子邮件域关联的账户确定。

于是，OpenAI迅速行动。2023年8月28日，OpenAI推出ChatGPT Enterprise，正式进军企业市场。它提供企业级安全和隐私、无限的高速GPT-4访问、用于处理更长输入的更长上下文窗口、高级数据分析功能、自定义选项等等。

这是一个很微妙的时间点——ChatGPT流量见顶，开始走下坡路。

根据第三方网站SimilarWeb的监测数据，2023年6月ChatGPT的网站与移动客户端的全球流量（PV）环比下降9.7%，美国地区的流量环比下降10.3%。同时，ChatGPT的独立访客数量（UV）下降了5.7%，访客在网站上花费的时间也下降了8.5%。

这是自2022年11月30日发布以来，ChatGPT首次出现流量负增长。其实，ChatGPT增长放缓的势头在2023年5月已经出现端倪，5月的增长率仅为2.8%。

当时，一家AI Lab负责人告诉“甲子光年”，ChatGPT流量下滑10%，但真正的挑战不在这里。“大部分人都是带着体验的目的，看看ChatGPT到底有多强大才去注册的，包括我也是。但这不意味着我会天天用它。除了做一些简单的科普，或者给孩子写作文之外，大部分人日常其实也不太会用到。”这位AI Lab负责人说。

莱特凯普自己也在一次访谈中犀利点评ChatGPT：“人们玩儿过一会儿后就认为它并不是真正的工具，而更像一个玩具。”

更严峻的是，ChatGPT的烧钱速度同样出人意料。

当OpenAI的早期投资人埃隆·马斯克（Elon Musk）问到ChatGPT的成本时，奥尔特曼给到的数据是“每次对话的平均费用为几美分”。2023年4月，国外一位分析师估算的数据则是每天的运营成本高达70万美元。

2023年2月1日，OpenAI开始商业化探索，推出付费版本的ChatGPT Plus，定价每月20美元，提供的增值服务包括“高峰时段免排队、快速响应以及优先获得新功能”等。

如此看来，ChatGPT虽然备受喜爱，但在商业层面却算不上一个真正成功的产品。这些被ChatGPT烧掉的钱，就要用B端来填。

数据显示，截至2023年11月，已经有92%的500强企业以某种形式部署了ChatGPT。Block、Canva、Carlyle、雅诗兰黛、普华永道和Zapier均为OpenAI的早期客户。

C端流量与B端客户量的此消彼长之间，OpenAI也逐渐由一家伟大而光荣的非营利性AGI实验室，加速转变为一家“平庸”的商业公司——他们或许能赚到很多钱，却没有造出能够说服用户的产品。

直到今天，让奥尔特曼感到“像魔术一样”的GPT-4o面世。

只是GPT-4o真能治好OpenAI的产品焦虑吗？答案或许并不清晰。

从模型能力上来看，实时语音交互是GPT-4o在多模态方面最亮眼的进展。然而事实上，语音交互类产品并不新鲜。在可查阅的历史中，AI语音交互类产品在商业化方面并没有太多成功的案例，苹果的Siri到今天都是一个十分鸡肋的功能。

而发布会上的GPT-4o，看起来依然是一个“有趣的玩具”。

当然，不可否认的是，从这次发布会的效果来看，GPT-4o或许会成为又一个成功的PR案例，被写入OpenAI的历史。

本文来自微信公众号：甲子光年（ID：jazzyear），作者：刘杨楠，编辑：王博、栗子

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

用过期食材、偷工减料，麦当劳也“塌房”了？

Previous 2024年5月14日 09:55

刘作虎的“一加味”，污染了整个OPPO，乃至各种国产机

Next 2024年5月14日 10:15

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

免费的GPT-4o足够强，但治不好OpenAI的产品焦虑

相关推荐