GPT-4o是什么?是你想要的一切

为了这个目的,OpenAI做了三件事:发布更强大的模型GPT-4o,更新用户界面提高使用体验,然后一口气免费开放给用户。

米拉·穆拉蒂主持了整场发布会,萨姆·奥尔特曼没有露面|@OpenAI

据OpenAI表示,GPT-4o是一个“原生多模态”模型,它的命名来源于“omni”,即包罗万象之意。OpenAI

此外,萨姆·奥尔特曼在X上补充道,模型升级不止在GPT上,开发者也可以在API里同步使用GPT-4o,价格是GPT-4。

距离GPT-4的发布已经过去了一年,当地时间5月13日上午10点,OpenAI春季发布会千呼万唤始出来。

这次发布的既不是传了很久的搜索引擎,也不是GPT5,而是GPT-4的迭代版本,GPT-4o。在未来几周内,用户将会陆续自动更新到GPT-4o。

GPT-4o作为新一代旗舰模型,把AI工具的使用门槛降到了更低的程度,不仅比上一代速度快两倍,能实现无延迟实时对话,而且用户不用注册,功能全部免费

此外,ChatGPT现在有桌面版本了,轻量化的使用体验可以无缝融入你的任何工作流程,再也不用苦哈哈地往网页上搬砖了。据OpenAI的CTO米拉·穆拉蒂(Mira Murati)表示,这也是他们第一次在易用性上作出改进。

“O”是包罗万象的O

发布会刚开始,米拉·穆拉蒂为这次新发布定了调,说OpenAI的目标是进一步减小人们使用AI的障碍,让所有人都能在工作、学习、创造中用上AI工具。

为了这个目的,OpenAI做了三件事:发布更强大的模型GPT-4o,更新用户界面提高使用体验,然后一口气免费开放给用户。穆拉蒂补充道,付费用户享有五倍的使用容量限制。

米拉·穆拉蒂主持了整场发布会,萨姆·奥尔特曼没有露面|@OpenAI

据OpenAI表示,GPT-4o是一个“原生多模态”模型,它的命名来源于“omni”,即包罗万象之意。

比起此前要么是图文模式要么是语音模式的GPT-4,它更擅长打组合拳,可以接受文字、音频、图像的任意组合输入,然后无缝衔接图文音频的多种形式输出。

升级后的GPT-4o回答速度更快了。

据OpenAI表示,GPT-4想要实现和人的对话需要通过三步来实现:先把语音转换为文字,再生成回复文本,最后再转成语音。根据用户选择模型的不同,这个过程的平均延迟高达2.8秒 (GPT-3.5)和5.4 秒(GPT-4),对着手机屏幕等回复,跟GPT聊过天的朋友应该都有类似的体验。而且在语音转文字再转语音的过程中,很多信息损失了,GPT无法获得说话人的音调,也无法收取背景音,如果有多个人一起说话更是灾难性的场景。

“我们跨文本、视觉和音频端到端地训练了一个新模型,”OpenAI写道,“这意味着所有输入和输出都由同一神经网络处理。”现在的GPT-4o可以在最短232毫秒内响应对话,平均响应时间320毫秒,和人类的反应速度几乎一样,爱跟ChatGPT聊天的朋友终于可以从微信语音模式切换到日常交流模式了。

GPT-4o还带来了更好用的界面

再也不用在网页间互相切换了,新的桌面版GPT可以融入任何工作流,随时和用户用图像文字语音进行交流,虽然还没用上,但可以想像这种工作体验有多快乐。

右上角是桌面版GPT的小窗口,可以贴代码让它debug,可以截图让它读表格,也可以随时跟它对话|@OpenAI

此外,萨姆·奥尔特曼在X上补充道,模型升级不止在GPT上,开发者也可以在API里同步使用GPT-4o,价格是GPT-4 Turbo的一半,速度是GPT-4 Turbo的两倍。GPT-4o还在50多种除英文外的语言能力上得到了加强。

连呼吸都能辨别

发布会的最后一个环节是实机演示。OpenAI麾下的大牛研究员Marc Chen和Barret Zoph一起展示了新模型的强大之处。

在第一段对话里,Chen对GPT说,自己有点紧张,然后开始急促地呼吸。GPT识别到了他呼吸的声音,说,别紧张,你喘得像个吸尘器,深呼吸,再吐气。接着GPT开始指导Chen怎么深吸慢呼平复心情。

这个demo设置得很妙,它展示出了两个重要的新能力:听环境音和即时反馈

GPT不再需要一轮一轮地进行对话,它可以同时听人喘气和进行呼吸指导,输入和输出在同时发生。

第二个demo里,Chen让GPT给Zoph讲个睡前故事哄他入睡,Chen反复打断GPT的讲述,问它能不能讲得更刺激点,最后,GPT跟迪士尼公主似的把故事用歌唱了出来。

有时候GPT给人感觉话太多了,在新版本里,你要是不想听可以立刻打断或者提出意见,就像在真实生活里的交流一样。

后面的几个demo里,GPT教Zoph做了数学题(“你不能直接告诉我答案,而是启发我一步一步解完嘛?”),给大家解释了代码,读了图表,给Zoph看了面相(“你很开心,又有点激动。”),最后还当了Chen和穆拉蒂之间的同声传译。

GPT给Zoph看面相|OpenAI

我个人的体会是,这个版本的GPT比以前更像人了,对话中会开更多的玩笑,语气词也多了不少,这和OpenAI所说的提高GPT的工具性似乎有点相悖。我可能会在用的过程中让它少废话,否则真的会有点情感压力。

但还是有很多人对这次发布会不满意。有网友觉得OpenAI在挤牙膏,一年多过去了仍然在GPT-4上裹足不前,也有人对免费提出了质疑。

“当服务免费时,用户就是产品。”“(ChatGPT免费之后)OpenAI获得的数据量会超出想象。”

对一般用户来说,不用注册即可使用已经是个天大的惊喜了,再也不用找国外手机号了,懂的都懂。

本文来自微信公众号:果壳 (ID:Guokr42),作者:翻翻,编辑:Odette

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年5月14日
Next 2024年5月14日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日