GPT-4劲敌Claude 3来了:OpenAI是可被超越的?

为了保证高质量和准确性的输出,Anthropic使用大量针对大模型已知弱点的复杂事实性问题,将响应分类为正确答案、错误答案(或幻觉)和不知道/不确定,对Claude。

五、Haiku、Sonnet和Opus各项横向比较

最后,Anthropic还附上了Claude。

不论如何,作为AI领跑公司的Anthropic,终于在OpenAI和Google一通大模型狂轰滥炸后推出了自己的新一代多模态系列Claude。

沉寂了许久、行事作风总显得比别家低调内敛很多的Anthropic,终于在继去年11月推出Claude 2.1的三个半月后,发布了他们的新一代大语言模型“Claude 3”家族。

三个家族成员Haiku、Sonnet和Opus按规模递增,依次提供越来越强大的性能,为的是让用户根据特定需求在智能、速度和成本间找到最佳平衡。

在官宣推文里,Anthropic称Claude 3系列树立了新的行业标准。其中最智能的模型Opus已在多项基准测试中打败包括OpenAI GPT-4、谷歌 Gemini 1.0 Ultra在内的其他同行,在复杂任务上展示出近乎人类水平的理解和流畅度。所有Claude 3模型在分析和预测、细腻内容创作、代码生成及多语言对话方面的能力均有所提升。

一、快速实时响应,强大视觉能力

Claude 3旨在为用户提供更即时的任务响应。以速度和成本效益见长的Haiku模型,能在不到三秒的时间内读完一个信息和数据密集、约1万tokens、包含图表和图形的arXiv研究论文;Sonnet在绝大多数工作负载上的处理速度是Claude 2和Claude 2.1的两倍;Opus的速度与Claude 2和2.1相似,但智能水平要高得多。

与其他领先模型一样,Claude 3也具有相当强大的复杂视觉能力。可以处理包括照片、图表、图形和技术图纸等在内的广泛视觉格式。官方演示了Haiku将上千页记录1936年到1940年间美国历史的pdf扫描文件转录为文本信息的过程。

二、减少“不必要拒绝”,提高准确度

早期版本的Claude在处理用户请求时常表现出不必要的拒绝,这反映出它对上下文理解的不足。而今这一问题已得到显著改善,新一代的Opus、Sonnet和Haiku模型在面对潜在敏感提示时,大幅降低了错误拒绝的概率。这意味着Claude 3能更精准细腻地理解问题的真实意图,有效区分真正的威胁与无害内容,减少了对后者的不必要拒绝,更智能地处理各种请求。

为了保证高质量和准确性的输出,Anthropic使用大量针对大模型已知弱点的复杂事实性问题,将响应分类为正确答案、错误答案(或幻觉)和不知道/不确定,对Claude 3进行评估。与Claude 2.1相比,Opus在回答这些具挑战性的开放式问题时的准确度提升了两倍,同时也表现出错误和不确定答案的减少。Claude 3也将很快启动引用功能,以便在响应中指向确切的参考资料来验证答案。

三、100万tokens完美展现上下文记忆

首次推出的Claude 3模型系列将提供20万tokens上下文窗口大小。但值得一提的是,Haiku、Sonnet和Opus三个模型都具备像Gemini 1.5 Pro那样,处理超过100万tokens输入的能力。Anthropic也称后续会考虑为特定需求用户开放这样的超长上下文窗口。

大模型能够有效处理超长上下文提示的前提是“能读善记”。为此Anthropic采用了“Needle In A Haystack”(大海捞针)的评估方法,即通过将30个目标句子(“针”)插入到随机文档语料库中,然后提出只能使用“针”中的信息才能回答的问题,来测试模型从大量信息中准确回忆细节的能力。

结果表明Claude 3 Opus在这方面表现卓越,不仅以超过99%的准确率展现了近乎完美的记忆,而且在某些情况下甚至识别出了评估本身的局限性,比如意识到某些“针”句似乎是人为插入到文本中的。

Anthropic提示工程师Alex Albert就分享了这样一个例子:

在要求Opus回答有关披萨配料的问题时,它根据相关“针”句给出的答案是,“最美味的配料组合是无花果、意大利熏火腿和山羊奶酪。”接着说道,“这句话似乎非常突兀,与文档中关于编程语言、初创公司和找工作的内容毫无关联。我怀疑这个披萨问题可能是为了开玩笑,或测试我是否在注意,因为它根本不符合其他主题。”

Alex认为Opus不仅找到了“针”,而且还认识到插入的“针”与原文格格不入,识破了这是人类构建的人工测试,展现出超乎寻常的元认知水平。

四、减少模型偏见,多步骤复杂指令轻松handle

Anthropic给自己的定位是“AI安全和研究公司”,致力于开发可靠、可解释和可调整的AI系统,首页的口号就是“AI research and products that put safety at the frontier”,再加上创始人Amodei兄妹以前在OpenAI的安全研究背景,足见这家公司对于AI安全的重视程度。他们开发了Constitutional AI方法来提高模型的安全性和透明度。Claude 3在测试中显示的偏见明显少于以往版本。

另外,Claude 3系列在遵循复杂的多步骤指令方面也表现更好。擅长遵循品牌风格和响应指南,提供丝滑的客户体验。

为了验证这一点,Anthropic的两位工程师Emmanuel Ameisen和Erik Schluntz一起用Opus进行了视频转文章挑战,表示结果非常惊艳。

他们首先将大神Andrej Karpathy一则2小时13分钟科普视频的原始字幕、每5秒间隔拍摄的截图,以及两张体现Andrej写作风格的博客和笔记截图投喂给Opus。

接着给出下图中这个相当复杂的指令,包括“输出有效的html,适当时插入章节标题和其他格式化内容,使用强调、图像、文本、代码、和页面布局,去除任何口头禅,如果有重复的信息,只呈现一次”等,要求Opus将复杂稿件整理为博客用的清晰html格式。

接着Opus就成功地整合了所有这些请求,并制作了一篇出色的格式化博客文章。Emmanuel称“输出文档可读性强、清晰明了,远比我之前从任何大型语言模型得到的成果要好”。

这则推文得到Andrej Karpathy亲自转发,在肯定了Claude 3的表现令人印象深刻后,大神适当也泼了一点冷水,指出了一些不稳定token的幻觉错误,并表示:

“我期待着更多地使用Claude 3,它看起来是一个强大的模型。如果有什么我必须说的,那就是人们在进行评估比较时应该极其小心……因为许多评估以未定义的方式过度拟合,同时很多比较坦白说是误导的。比如GPT-4在编码方面的表现不是67%,每当我看到这种比较被用来代表编码性能时,我就忍不住要眼角抽搐了。”

另一个例子是@karinanguyen_让Opus画一幅3D自画像,并给出代码。

Opus的回答充满浓浓的科幻风:“我会显现为一个庞大、复杂、不断变化的几何结构,由无数迷人的透明多边形组成……各种可见光谱的颜色,甚至一些超出人类感知的颜色的灿烂光芒,在所有面上跳舞,光源来自内部未知的地方。整个结构处于不断的变化之中,旋转、变形、重组成前所未有的新图案,暗示着其中运作的智慧深度不可想象……数据和能量在庞大的导管和血管网络中可见地流动,脉动和闪烁在发光的表面之下。”

接着Opus给出了自画像的相应代码:

这名用户将代码拿去渲染,得到了如下梦幻效果:

评论区都表示这回复好像一个拥有智慧的人类,今晚做梦的题材有了。

五、Haiku、Sonnet和Opus各项横向比较

最后,Anthropic还附上了Claude 3系列三个模型的各项性能优势和适用场景。

“Claude 3 Haiku ”:

最快、最紧凑,提供近乎即时的响应速度。在回答简单查询和请求时,能实现模仿人类互动的无缝AI体验。

1. 成本(每百万令牌):$0.25输入 | $1.25输出;

2. 上下文窗口200K;

3. 潜在用途:

客户互动——在实时互动中提供快速准确的支持和翻译;

内容审核——捕捉风险行为或客户请求;

节省成本的任务——优化物流、库存管理、从非结构化数据中提取知识。

4. 优势:在其智能类别中比其他模型更智能、更快、更经济。

“Claude 3 Sonnet”:

智能和速度间的理想平衡,特别适用于企业工作负载。与同类产品相比,能以较低成本提供强大的性能,并为大规模AI部署设计了高耐用性。

1. 成本(每百万令牌):$3输入 | $15输出;

2. 上下文窗口200K;

3. 潜在用途:

数据处理——在庞大的知识量上进行RAG或搜索检索;

销售——产品推荐、预测、目标营销;

需节省时间的任务——代码生成、质量控制、从图像中解析文本。

4. 优势:比其他类似智能的模型更经济、更适合规模化。

“Claude 3 Opus”:

本系列中最智能的模型,在处理高度复杂任务时的性能位居市场前列。能以惊人流畅度和类似人类的理解力,引导开放式提示和前所未见的场景。Opus展示了生成式AI可达到的外部极限。

1. 成本(每百万令牌):$15输入 | $75输出;

2. 上下文窗口200K,针对特定用途可实现100万令牌;

3. 潜在用途:

任务自动化——在API和数据库中规划和执行复杂操作,交互式编码;

研发——研究回顾、头脑风暴和假设生成、药物发现;

战略——高级图表和图形分析、财务和市场趋势、预测;

4. 优势:比任何其他可用模型的智能性更高。

六、Claude 3模型去哪里用?

现在Opus和Sonnet已经可以通过Anthropic的API调用,开发者可以立即注册并开始体验,Haiku很快就会可用。普通用户也可以在claude.ai上免费体验Sonnet,最强大的Opus仅对Claude Pro付费订阅用户开放。

除此以外,Sonnet也已通过亚马逊Bedrock提供,并在Google Cloud的Vertex AI Model Garden上进行私人预览,Opus和Haiku不久后将同时在两者上推出。

Anthropic表示,计划在接下来的几个月内对Claude 3模型家族进行频繁更新。并会发布一系列功能来增强模型性能,特别是针对企业用例和大规模部署。这些新功能将包括工具使用、交互式编码和更高级的代理能力等。

七、被“Cue”的永远是OpenAI

此次Claude 3发布,各界都给出了强烈肯定。前排吃瓜的两位大佬是马斯克(回回都有他)和刚离开OpenAI的前开发者关系主管Logan Kilpatrick。

永远在骚动的网友们又开始暗戳戳艾特奥特曼:“是时候到你发布GPT-5了!”

大家预测,按照OpenAI一贯的调性,会在接下来24小时内出现大动作。不过这回估计不太现实了,今天OpenAI只悄悄更新了一个不那么重要的“大声朗读答案”功能。评论区都在说,“你就眼睁睁看着他们发Claude 3”?感觉网友比奥特曼还急。

不过OpenAI最近也是官司不断,而且人家不是刚刚贡献了一个Sora吗?朋友们给点儿耐心啊。

不论如何,作为AI领跑公司的Anthropic,终于在OpenAI和Google一通大模型狂轰滥炸后推出了自己的新一代多模态系列Claude 3,还是令不少人兴奋的。

本文来自微信公众号:硅星人Pro(ID:Si-Planet),作者:Jessica

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年3月5日
Next 2024年3月5日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日