实测完Claude 3,我更期待GPT-5了

中杯。

中杯大杯超大杯,杯杯有惊喜

无论是中杯、大杯还是超大杯,Anthropic。

值得一提的是,和前代模型相比,Claude。

自成立之初,Claude。

在评估模型的回答时,他们将回答分类为正确、错误(或虚构)以及不确定性承认。

瞧瞧这满屏的绿色

目前,Opus。

模型细节

Claude。

网友首先对。

网友。

苦等数月,没有等来 GPT-5 ,却迎来了 ChatGPT 的孪生兄弟 Claude 3。

昨天晚上,Anthropic 正式推出了 Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

这三款模型在推理、数学、编码、多语言理解和视觉处理等方面相当扎眼。

  • 中杯 Haiku,轻量级的选择

  • 大杯 Sonnet,平衡性能与速度

  • 超大杯 Opus,AI 模型的巅峰之作

在 http://claude.ai 体验网址上,Claude 3 免费版用户使用 Sonnet 模型。而订阅用户将能够体验到更高级的 Opus 模型。

中杯大杯超大杯,杯杯有惊喜

无论是中杯、大杯还是超大杯,Anthropic 推出的每一款模型都蕴藏着惊喜。

Anthropic 官方宣称,作为旗舰级别的超大杯 Opus 模型,其智能程度堪比人类,能够游刃有余地应对开放式问题,并巧妙解决各种复杂挑战。

从官方发布的成绩单来看,在知识测试 MMLU、推理测试 GPQA、基础数学测试 GSM8K 等一系列基准测试中,超大杯 Claude 3 Opus 模型展现了卓越的性能,其每一项得分都全面超越了 GPT-4 以及 Gemini 1.0 Ultra。


视频 @dotey(同下)

若是和 GPT-4 Turbo 对比,情况有所不同

中杯 Haiku 模型则主打的是响应速度最快且性价比最高。它能在不到三秒的时间内快速消化 arXiv 上的长达约 10000 个词汇的高密度研究论文及其图表。

基准测试结果显示,Haiku 模型的性能水平介于 GPT-4 和 GPT-3.5 之间,然而在成本效益上,Haiku 模型的性价比远超 GPT-4。

图表来自 @FinanceYF5 

在大多数工作任务中,Sonnet 的速度比 Claude 2 和 Claude 2.1 快一倍,且在智能处理能力上也实现了质的飞跃。它特别擅长需要迅速响应的任务,例如知识检索和销售自动化。

相较之下,超大杯 Opus 的性能虽然更强,但响应的速度模型却和旧模型大致相同。

值得一提的是,和前代模型相比,Claude 3 最突出的新增能力在于其视觉识别能力。这意味着它能处理包括照片、图表、图形以及技术图纸等多种视觉资料,而这种多模态能力也正是当今顶尖 AI 模型必备的功能。

众所周知,大部分顶尖模型往往基于英文语料库进行训练,这导致它们在英语答案生成上的表现通常远超其他语言,而 Claude 3 打破了这一桎梏,在西班牙语、日语和法语等非英语语言的交流中展现出更强大的沟通能力。

自成立之初,Claude 便以“安全而负责任的 AI”著称,既是其引以为傲的亮点,亦是其双刃剑般的存在。比如过往的 Claude 模型经常无端地拒绝回答问题。

而升级后的 Claude 3 模型已经在理解用户请求方面迈出了一大步,能够敏锐地识别出风险问题,并且精准地区分无害的请求。

在提升性能的同时,Claude 3 也兼顾了模型的安全性和可靠性,依然严格遵循人工智能安全等级 2(ASL-2)的标准。

人工智能安全等级 2(ASL-2),是一个用于评估和分类人工智能系统潜在风险的等级体系中的一个级别。

ASL-2 通常意味着该级别的AI系统具有中等的潜在风险,需要采取一定的安全措施来确保其安全运行,但这些风险是可控的,并且系统在大多数情况下不会对人类或环境构成严重威胁。

针对当前大模型普遍存在的幻觉问题,Anthropic 也注意到了这一问题,专门针对现有模型的已知缺陷设计了一系列复杂且基于事实的问题。

在评估模型的回答时,他们将回答分类为正确、错误(或虚构)以及不确定性承认。这种方法允许模型在不确定时明确表示其知识的局限性,而不是提供可能误导的错误信息,从而提高了 AI 系统的透明度和可靠性。

与 Claude 2.1 相比,超大杯 Opus 在处理这些具有挑战性的开放式问题时,正确率翻了一番,同时大幅减少了错误答案的产生。

类似于 Perplexity AI 的思路,除了生成更可信的回答外,Anthropic 即将在 Claude 3 模型中启用引用功能,使其能够引用参考材料中的具体句子,以此来验证其答案的正确性。Perplexity 怕是要瑟瑟发抖了。

借鉴了 Perplexity AI 答案引擎的思路,Anthropic 计划为 Claude 3 模型新增引用功能,使其能够引用参考材料中的具体句子,以此来验证其答案的正确性。

Claude 3 系列模型在刚推出时仅支持最多 20 万 个 tokens 的上下文窗口,单次可处理大约 15 万个单词。

不过,和 Gemini 1.5 Pro 一样,Claude 3 全系模型均能处理超过 100 万个 tokens 的输入,再次回归到 AI 模型的第一档次。而这项功能仅对需要更高处理性能的特定客户开放。

衡量上下文窗口能力的试金石,依然是我们熟悉的“大海捞针”测试。

“大海捞针”(NIAH)评估测试的是模型从大量数据中准确检索信息的能力。为了增强这一测试的可信度,Anthropic 官方更是随机在多样化的众包文档集合中进行测试。

结果显示,超大杯 Claude 3 Opus 不仅以超过 99% 的准确率实现了信息检索的近乎完美表现,而且在某些情况下,它能识别出哪些作为“针”的句子是由人为刻意插入的,充分展现了其对信息环境的深刻理解。

瞧瞧这满屏的绿色

目前,Opus 和 Sonnet 已经正式开放,集成在 Anthropic 的 API 中,开发者们现在可以注册并开始使用这些模型。Haiku 模型也即将在不久后推出。

模型细节

Claude 3 实测 :能和 GPT-4 一较高下吗?

在 Claude 3 发布之后,网友 @op7418 第一时间尝试了 Claude 3 Opus,并做了三个测试。

网友首先对 Claude 3 Opus 的翻译能力进行了测试,挑战了一段复杂的英文文本。结果显示,Opus 的翻译不仅条理分明,而且分段和排版得当,使得阅读体验大幅提升。但若论翻译的流畅度与准确性,GPT-4 依旧略占上风。

此外,网友又用一张风格复杂的设计稿截图考验 Opus 的细节还原能力。在网友明确指出需要还原样式后,Opus 精准把握设计元素,整体表现要比 GPT-4 要好。

多模态能力也是 Opus 值得考察的重点。它不仅能读懂学术论文的精髓,还能把分析结果呈现得一清二楚。不过,跟 GPT-4 比起来,Opus 在信息的丰富度上似乎还有点“成长空间”。

网友 @mlpowered 向 API 提供了长达两小时的视频讲稿以及精选的关键画面截图,成功制作出了一篇内容丰富、图文并茂的 HTML 格式博客文章。

网友 @7oponaut 分别用 Opus 和 GPT-4 玩起了井字游戏,遗憾的是 Opus 并不能顺利地画出网格,而 GPT-4 则宣告成功。

我们也实测了 Claude 3 一些效果,比如看图识别菜谱:

解释方程式:

提取 JSON 文件:

留给 OpenAI 的时间不多了?

有趣的是,在 Claude 3 发布后,讨论最多的却是老对手 ChatGPT。

英伟达高级科学家 Jim Fan 已经在期待 GPT-5 的亮相了:

网友体验后的真性情:

留给 Sam Altman 的时间不多了:

只有 Q* 的出现才能彻底抢回 Claude 3 的风头:

前 Open AI 开发者关系主管 Logan Kilpatrick 送上祝贺:

对 Claude 3 史无前例的夸赞:

网友在 Altman 评论区催更:

而该评论的推文上,Sam Altman 正在转发 Ron Conway 的一封署名信:

为了构筑一个更加美好的未来,我们呼吁全人类共同努力,广泛开发和应用人工智能(AI),以此来提升人们的生活质量,开启美好未来的大门。

人工智能的终极目标,在于让人类生活得更加美好,超越以往任何时代的可能。

尽管人工智能技术仍处于发展初期,但它正逐步渗透到我们日常生活的各个方面:从提供学习帮助的AI导师,到连接世界的AI翻译工具;从促进医疗保健的AI辅助诊断,到加速科学发现的AI研究工具;再到能够协助我们处理日常事务的AI对话助手。

人工智能在直接增强人类思维能力方面具有独特优势。我们预计,它对人类社会的影响将与印刷术、内燃机、电力及互联网相似。人工智能对人类正面与负面影响的平衡,将取决于我们每个人的行动和深思熟虑。我们肩负着共同的责任,要做出明智的选择,以最大限度地发挥人工智能的积极作用,并减少其潜在风险,不仅为了今天,也为了未来。

每个人都可以为塑造人工智能的未来做出贡献,无论是使用它来创造和学习的人们,还是在这项技术基础上开发新产品和服务的创新者,亦或是利用人工智能探索人类面临的重大挑战的解决方案的先行者,以及那些分享对人工智能影响生活的希望和忧虑的人们。人工智能属于我们所有人,每个人都在构建能够改善人类生活的人工智能过程中扮演着重要的角色。

我们,作为本文的签署者,已经开始体验到人工智能带来的种种益处,并且我们致力于开发能够为人类带来更美好未来的人工智能技术——我们诚挚地邀请您加入我们的行列!

本文来自微信公众号:APPSO (ID:appsolution),作者:莫崇宇

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月5日
下一篇 2024年3月5日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日