Anthropic:打败OpenAI的方法,是成为OpenAI

3打趴GPT-4,跃居用户体验榜首

我们知道,每当一款新的大模型推出时,都会拿GPT-4来作比较。大杯Sonnet排名第4,就连Claude最轻巧的中杯Haiku都超越了初版GPT-4和欧洲新贵Mistral。

打败OpenAI的方法是成为OpenAI

Anthropic在发布Claude。Anthropic把AWS作为其关键工作负载的主要云提供商,使用亚马逊Trainium和Inferentia芯片来训练和部署未来模型,并向全球AWS客户提供未来几代基础模型在Amazon。

最近Anthropic真是风头正盛,堪称赢麻了。

亚马逊刚刚宣布,再次对它追加27.5亿美元投资,共同加速生成式人工智能发展。加上去年9月投入的12.5亿美元,总共豪掷超过40亿美元,成为亚马逊三十年历史上最大的对外投资,也令Anthropic从去年至今的融资额一举超过100亿美元。

而公司开发的旗舰大模型Claude 3全家桶自推出20多天以来,也一路好评无数、口碑爆棚,并在最新的Chatbot Arena排行榜上正式打败GPT-4,首次登上王位。

Claude 3打趴GPT-4,跃居用户体验榜首

我们知道,每当一款新的大模型推出时,都会拿GPT-4来作比较。拉出一张包括MMLU、数学、推理、编程等各项测试的跑分对照表,证明自己哪些参数已经赶超GPT-4。但归根结底,模型终究是给人用的,到底是不是真的比GPT-4厉害,还得是实际用户体验说了算。

昨天,Chatbot Arena新鲜出炉了截至3月26日的聊天机器人对战榜成绩。

在收集了来自47.7万多野生用户对于市面上75款大模型的匿名投票后,Claude 3超大杯Opus在群众的呼声中力压群雄,打败GPT-4 Turbo成功登顶第1名。大杯Sonnet排名第4,就连Claude最轻巧的中杯Haiku都超越了初版GPT-4和欧洲新贵Mistral Large,位列第6名。

与此同时Google仅Gemini Pro一员大将杀入前十,来自阿里巴巴的通义千问排在第9。

如果说Anthropic发布Claude 3时引发的“大模型王位易主”讨论还存在参数争议,那么经过近一个月的场下实测,Claude 3的确用实力证明了自己比GPT-4更能打,成为目前LLM争霸赛的最大赢家。

社区用户Peter Gostev还根据Chatbot Arena排行榜制作了从2023年5月到2024年3月,Top15大模型的动态演变史,清晰展现Claude 3势如破竹的“上位”全过程。

对榜单不熟悉的朋友,我们先一起来看看它是怎么打分的。

Chatbot Arena(聊天机器人竞技场)是由UC Berkley、UCSD和CMU合作研究组织LMSYS Org开发的LLM测试平台,通过众包方式进行匿名随机对战,评估和排名不同的语言模型。

具体规则是:用户向两个匿名模型输入同一个问题,然后对它们各自生成的答案进行评价,选择模型A更好、B更好、平手或都很差。它支持多轮对话,直到用户认定赢家。并且如果在对话过程中泄露了模型身份,那么投票将不会被计入。最终,Chatbot Arena会采用类似于国际象棋等竞技游戏中广泛使用的Elo评分机制,来综合评估大模型能力。

可以看出,与常见的Benchmarks跑分不同,Arena Elo 排行榜成绩完全是基于人类用户的使用体验和真实反馈,在实用性上更具参考价值。

Chatbot Arena还放出一系列白热化的后台对战数据。

模型A在所有非平局Battle中战胜模型B的比例:

每一组模型组合(不包括平局)的对战次数:

公布这一结果的LMSYS Org认为,更让人印象深刻的是Claude 3 Haiku。作为全家桶中最轻量级的模型,它的用户偏好已达到与GPT-4相当的水平,综合其速度、能力和200k上下文长度,在市场上现在无人能敌。(同时也夸了一下自家伯克利团队开发的Starling-LM-7B-beta近期攀升迅速,是市面上最好的7B开源模型。)

许多网友也纷纷注意到了这点,为Haiku鼓掌叫好:“我们拥有了一个GPT-4水平但比它便宜10倍的模型!”

Antrohpic工程师@alexalbert_亲自解释说,Haiku模型的价格和速度被严重低估:“据估计,普通人一生大概会说8.6亿个单词,相当于约12亿个标记。而Haiku的价格是每百万标记输入0.25美元。意味着你仅花费300美元就可以让Haiku处理一个人一生中说的所有话。更疯狂的是,Haiku可以每秒读取高达2.4万个标记。也就是说只需5000秒,大约83分钟内,就能分析完一个人一生的经历。”

人们表示给新王跪了, Claude 3 Opus确实树立了新的AI行业标准,现实中使用率更高。

“我真的更喜欢Claude。我只是使用免费版Sonnet并与GPT-4进行比较,对于日常对话和事实核实,它似乎更加智能。GPT-4在编程方面仍占据主导地位,但我并不是特别相信它真有那么优秀。”

“苹果应该考虑和Anthropic合作,让Claude作为iPhone手机的配套AI。”

这还真有可能。最近有新的传言流出,iOS 18的AI供应商也许会由Google Gemini悄悄换成Claude 3。Sam Altman因为一直想做AI硬件不被考虑,而Android集成Gemini后会削弱iOS的独特性。

此时人畜无害又口碑爆炸的Claude 3似乎才是最佳选择,扶持它也能让AI竞赛拖得更久更均衡。相信这些到苹果6月的WWDC开发者大会便会见分晓。

丰富民间用例验证,六边形战士Claude 3

推上也有不少人展示了自己在日常工作中使用Claude 3的一些惊艳实例。

HyperWriteAI 公司CEO Matt Shumer分享了一个用于生成高质量提示的工具“claude-prompt-engineer”。用户只需描述任务和输入变量,Claude 3就会帮你生成许多候选提示,并在排名赛中针对每个用例测试,最后返回最佳提示。

他表示之前版本接入的是GPT-4,而现在选用Claude 3编写出的提示比GPT-4质量要高得多。这个工具能自动生成测试用例,支持多变量,进一步自动化prompt engineering的工作流程,他本人已经在实际工作中使用,极大提升了效率。

他还做了一个使用Claude 3的开源投资分析师代理“claude-investor”。用户提供一个行业,就能快速查找主要公司的财务数据和新闻、分析每个公司的舆情和趋势,并根据投资潜力和目标价格对股票进行排名。

通过Claude 3强大的海量数据分析能力,生成详细的投资报告,帮助使用者查找高增长潜力的科技公司,跟踪投资组合中的股票表现,识别投资机会。从金融从业者到炒股小白都可以直接使用,很受社区欢迎。

用户@dr_cintas使用Claude 3生成了效果拔群的勾股定理演示动画。解锁了以动态视觉轻松解释各种原理的可能性。

再更生活化一些的例子也有。在宜家买过家具的同学都知道,看组装说明书实在是一项耗费脑细胞的活儿。用户@gabchuayz借助Claude 3强大的图像推理能力大大简化了这一流程。直接把说明书喂给模型,就生成简洁清晰的操作步骤。他在对比 GPT-4后认为Claude 3输出的结果更具可读性,还能辨认出细小零件的编号,非常实用。

Claude 3在代码审查和测试方面的潜力也得到了专业人士验证。

纽约大学Tandon工学院助理教授Brendan Dolan-Gavitt在X分享到,他将一个在GitHub上找到的小型C语言GIF解码库全部源代码提供给Claude 3,并要求它编写一个Python函数用于生成随机的GIF图像,以测试解码器的解析能力。结果这个GIF生成器在解码器中覆盖了92%的代码行,并发现了4个内存安全性漏洞和一个程序挂起问题。证明Claude 3完全有能力成为人类程序员的工作助手。

ChatGPT又变懒了?用户:弃

不过也有人觉得Claude 3厉害是厉害,但并不能代表OpenAI落于人后。毕竟GPT-4是2022年夏天训练的,按照惯例,奥特曼的工具箱里早就准备好新武器了。

“Claude现在是顶级的中央控制AI模型,GPT-4长期的统治已经结束。但这一情况将随着一个被称为GPT-5的新秘密模型而改变。”

“Opus可以享受这种喜悦,直到GPT-5发布那天”。

但问题是,GPT-5到底在哪儿呢?

不久前Sam Altman在Lex Friedman最新的播客采访中提到过,OpenAI的目标绝不是给世界带来令人震惊的更新,而是恰恰相反,渐进式达到每一个里程碑,因此下一代LLM会考虑以一种新的形式与公众见面。但他也坚定表示,今年会官宣一个令人惊叹的新模型,不管是不是叫GPT-5。在那之前,还会有其它东西先发布。

或许是加上各种事件和官司缠身, OpenAI现在的行事风格确实不像以往那么激进了。最新推特是今天刚刚发布的准备与小部分美国开发者合作,测试基于访问量的GPT盈利模式的消息。“我们的目标是创造一个活跃的生态系统,在这里开发者因其创造力和影响力而获得奖励。”

然后底下的评论可想而知,似乎少有人关心这个已经被Poe玩了好几个月的创作者共享经济模式,满满都是在问什么时候发布GPT-5和开放Sora。

可以清晰感受到,随着Claude 3这类优秀大模型的卓越性能被大量用户亲自验证,人们对于OpenAI的耐心越来越低,对ChatGPT要求的门槛也越来越高。加上GPT-4最近又开始不给力,过去曾出现过的“变懒变傻”问题再次重演,引得大批网友在推特抱怨讨伐,纷纷倒戈转向了Claude 3(包括本人在内)

“使用了4个月之后,我决定放弃ChatGPT Plus。GPT-4经常变得懒惰、缓慢、产生幻觉。与此同时我使用了免费的Claude 3 sonnet模型,它在上下文记忆、长回复以及速度方面给人留下了深刻印象——对程序员来说简直棒极了。正在考虑升级到高级版的Claude。请OpenAI尽快修复GPT-4的问题。”

其实,诸如Sora这些技术再超前,没有真正走向市场让人们上手用到,也只是望梅止渴的镜花水月。而今一个主打公平公正,由近50万用户验证后投票的Chatbot Arena榜单放出,足以见Claude 3是凭实力拿下的新王之位。

而无论是OpenAI还是Google等公司都应该清楚认识到,在GenAI浪潮里陪他们一起翻滚了两年多的用户们也早就练出来了,大家对于新模型的适应性和流动性是很强的。换句话说,没有谁真得离不开谁,单纯靠信仰的时代已过,体验跟不上、更新不及时,用户就会流失,好用才是硬道理。

打败OpenAI的方法是成为OpenAI

Anthropic在发布Claude 3时承诺过,会在接下来的几个月内对该系列进行频繁更新。发布一系列功能来增强模型性能,包括工具使用、交互式编码和更高级的代理能力等。对企业用例和大规模部署也会有新动作。

作为一家自我定义为“人工智能安全公司”的AI企业,现在的Anthropic似乎在慢慢远离起初低调谨慎、时刻强调安全的行事作风,节奏变得越发主动强势。而以往人们在推特上见惯了OpenAI、DeepMind的AI大咖输出意见,却鲜少见到Anthropic工程师们的身影。最近这一人群仿佛也跟着Claude 3的大火走向台前高调起来,成为人们关注的技术KOL。

再加上亚马逊总共40亿美元巨资入池,双方达成更深入的人工智能合作。Anthropic把AWS作为其关键工作负载的主要云提供商,使用亚马逊Trainium和Inferentia芯片来训练和部署未来模型,并向全球AWS客户提供未来几代基础模型在Amazon Bedrock上的访问权限。

今天亚马逊之于Anthropic的模式,怎么看怎么像曾经的微软之于OpenAI。按照这个路线,Anthropic很有可能在商业化版图中铺开更大的摊子,野心勃勃地跟亚马逊合力打造另一个AI帝国。等到苹果选择哪家AI供应商的靴子落地,全球科技巨头+AI公司的竞争格局又将被重新洗牌。

Anthropic已经找到了打败OpenAI的方法,那就是成为OpenAI。

也许,留给OpenAI的时间真得不多了。

本文来自微信公众号:硅星GenAI (ID:gh_e06235300f0d),作者:张潇雪

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月28日 20:16
下一篇 2024年3月28日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日