OpenAI连发5款新模型,还修复了GPT-4变懒问题

一、五分之一的价格,更强的性能,模型使用灵活性显著提升

首先来看看OpenAI此次新推出的两个嵌入模型,更小且高效的text-embedding-3-small模型,以及更大且更强的text-embedding-3-large模型。

▲text-embedding-3-small测试成绩

价格方面,text-embedding-3-small的价格仅为上代的五分之一,每1000个tokens的价格从0.0001美元降低到0.00002美元。

昨夜,OpenAI发布了一系列重磅大模型更新,连发了五个新模型以及新的API使用管理工具,总体来说可以说是“加量不加价”,OpenAI的友商们一觉醒来压力着实又大了不少。

首先,来看看新品和新特性:

1. 新的GPT-3.5 Turbo模型,输入价格暴降50%,输出价格降低25%,同时修复各种BUG,回应准确性更高,老用户两周后还可自动升级!

2. 新的GPT-4 Turbo预览模型,生成代码能力更强,模型“变懒”情况减少,修复各种BUG,带有视觉功能的GPT-4 Turbo也会在未来几个月内推出!

3. 新的小型文本嵌入模型text-embedding-3-small,性能小幅提升,价格直接“打骨折”,暴降至上代的五分之一。

4. 新的大型文本嵌入模型text-embedding-3-large,核心就是性能强,可创建多达3072维的嵌入,部分测试性能提升70%以上,价格略贵一点点。同时,OpenAI还搞了个新技术,直接让开发者在略微损失精度的情况下缩短嵌入,实现性能和成本的平衡,灵活性极大提升。

5. 新的审查模型text-moderation-007,OpenAI将其称之为“迄今为止最强大的审查模型”。

新的API使用管理工具我们不在此赘述。

最后,OpenAI还很贴心地提示说,默认情况下,发送到OpenAI API的数据将不会被用于训练或改进OpenAI模型。话不多说,我们具体来看看今天各个重磅新品的升级细节。

一、五分之一的价格,更强的性能,模型使用灵活性显著提升

首先来看看OpenAI此次新推出的两个嵌入模型,更小且高效的text-embedding-3-small模型,以及更大且更强的text-embedding-3-large模型。

在看模型之前,首先要理解下什么是“嵌入(embedding)”,简单来说,嵌入是一系列数字,而这些数字代表了自然语言或代码等内容中的概念。

▲嵌入(embedding)示意图

嵌入让机器学习模型和其他算法能够理解内容之间的关系,并执行如聚类或检索等任务,为ChatGPT和Assistants API中的知识检索,以及许多检索增强生成(RAG)开发者工具提供了支持。

新的小型文本嵌入模型text-embedding-3-small相比于2022年12月发布的前代模型text-embedding-ada-002主要有两方面升级:更强的性能、更低的价格。

性能方面,在一个常用的多语言检索基准(MIRACL)测试中,text-embedding-3-small平均分数从31.4%增加到了44.0%,在一个常用的英语任务基准(MTEB)测试中,其平均分数从61.0%增加到62.3%。

▲text-embedding-3-small测试成绩

价格方面,text-embedding-3-small的价格仅为上代的五分之一,每1000个tokens的价格从0.0001美元降低到0.00002美元。

另外一个新的大型文本嵌入模型text-embedding-3-large,据称可以创建多达3072维(dimensions)的嵌入,其主要提升在于性能。

性能方面,text-embedding-3-large在MIRACL测试中的平均分数从31.4%增加到54.9%,而在MTEB测试中,其平均分数从61.0%增加到64.6%。价格为0.00013美元/1000 tokens。

众所周知,用更大的嵌入,会消耗更多的计算、内存和存储资源,比使用更小的嵌入成本更高。

为此OpenAI推出了一种新的技术,让开发者可以在使用嵌入的性能和成本之间进行权衡。具体来说,开发者可以通过调整维度API参数(dimensions API parameter)来缩短嵌入,同时保证嵌入不会失去其表示概念的属性。

比如,在MTEB基准测试中,一个text-embedding-3-large嵌入可以被缩短到256的大小,但其测试成绩仍然优于一个未缩短的、大小为1536的text-embedding-ada-002嵌入。

▲缩短到256大小的text-embedding-3-large与未缩短的、大小为1536的text-embedding-ada-002测试成绩对比

这样的特性可以让使用变得非常灵活。比如当开发者使用一个最多只支持1024维嵌入的向量数据存储时,他仍然可以使用性能最强的text-embedding-3-large模型,他只需要为维度API参数指定一个1024的值,将嵌入从3072维缩短,当然精度会略有损失。

二、两大经典产品重磅升级,模型更勤快,代码能力增强,后续还会支持视觉功能

1. 新的GPT-3.5 Turbo模型:输入输出价格大幅下降,老用户升级方便

除了两个嵌入模型,这次OpenAI还宣布将在下周推出一个新的GPT-3.5 Turbo模型——gpt-3.5-turbo-0125,并且进一步降低其使用价格,这已经是过去一年时间里OpenAI对其进行的第三次降价了。

到底有多便宜呢?gpt-3.5-turbo-0125输入的价格降低了50%,为0.0005美元/1000 tokens,输出价格也降低了25%,为0.0015美元/1000 tokens。

当然,gpt-3.5-turbo-0125还会有各种升级,比如在以请求的格式回应时,会有更高准确性,同时OpenAI还修复了一些BUG。

另一个好消息是,使用pinned gpt-3.5-turbo模型alias的老客户将在新模型发布后的两周内自动升级。

2. 新的GPT-4 Turbo预览模型:代码更强,减少“变懒”

除了GPT-3.5 Turbo,OpenAI这次还发布了新的GPT-4 Turbo预览模型——gpt-4-0125-preview。

这个模型可以比之前的预览模型更完整地完成像代码生成这样的任务,并且可以减少模型“变懒(laziness)”不完成任务的情况。去年年底,GPT-4被发现“变懒”问题愈发严重,出现回应速度慢、回答敷衍、不听指令、写代码爱省略甚至拒绝回答、中断会话等情况。 当然,新模型也修复了一些BUG。

对于新的GPT-4 Turbo预览模型,OpenAI也引入了相关自动升级机制,如果用户订购了相关服务,他就会一直能够使用最新版的GPT-4 Turbo预览模型。

值得一提的是,OpenAI还提到他们计划在未来几个月内推出带有视觉功能的GPT-4 Turbo。

3. “迄今为止最强大的审查模型”

最后一个新产品是一个新的审查模型——text-moderation-007,OpenAI称之为“迄今为止最强大的审查模型”,免费的审查API可以允许开发者识别可能有害的文本。

4. 两项平台改进,提升开发者API使用管理体验

此外,OpenAI正在推出两项平台改进,让API密钥的使用有更好的透明度,同时让开发者对API密钥有更多的控制权。

第一项改进是,开发者可以从API密钥页面为API密钥分配权限。第二项改进是,使用仪表板和使用导出功能在打开跟踪后可以显示API密钥级别的度量。

▲仪表盘可以显示API密钥级别的度量

这样一来,只需要为每个功能、团队、产品或项目分配单独的API密钥,就可以简单地查看每个级别的使用情况。

三、结语:性能更强价格更低,OpenAI大模型继续巩固优势

此次OpenAI发布的多款大模型新品,都在上代产品基础上实现了一定的性能提升,在开发者使用的便捷程度、灵活程度上有一定改进,同时在价格方面给予了不小的优惠。

对于OpenAI来说,大模型生态的完善离不开开发者,今天的一系列“加量不加价”的操作也势必会增加OpenAI产品的竞争力。OpenAI的对手们将会做何应对、未来视觉大模型的出现又会给产业带来哪些新变量,我们拭目以待。

本文来自微信公众号:智东西(ID:zhidxcom),编译:云鹏,编辑:心缘

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年1月26日 11:40
下一篇 2024年1月26日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日