他们让GPT-4看起来像个流氓

2024年3月5日 08:07 • 未来科技

Anthropic在Claude。

OpenAI的尴尬处境

Claude“过于安全”的属性，也成了OpenAI的压力。

Claude发布前月余，业界一直有传闻认为，OpenAI将在Claude。

正在发大火箭的马斯克还特意跑来Anthropic点了个赞

就在Claude。

走OpenAI没走的路

Anthropic在Claude。

当地时间3月4日，Anthropic发布了最新的Claude 3模型系列，包括Claude 3 Opus、Sonnet和Haiku三个模型，其中Claude 3 Opus在多个测试数据集中全面超过了GPT-4。

Anthropic是一家由 OpenAI 前成员Daniela Amodei、Dario Amodei和Jared Kaplan共同创立的美国人工智能（AI）初创公司，专注于开发通用 AI 系统和大型语言模型。

Claude 3 Haiku、Sonnet和Opus三款模型的能力和成本依次递增，推理速度依次递减。Claude 3 Opus性能最强，相对的输出成本最高和输出时间最长，Claude 3 Opus模型在数学、编程、多语言理解和视觉等多项基准测试中超越了GPT-4和Gemini 1.0 Ultra。

与GPT-4相比，Claude 3 Opus在多个测试数据集中全面超过了GPT-4。

Anthropic在Claude 3系列模型中首次放出了多模态能力，用户可以上传各类非结构化数据如照片、图表等供AI分析。这三个模型均支持200K token的长上下文窗口，并向特定客户开放超过100万token的上下文输入能力。

不过，Claude 3模型的定价也高于GPT-4。能力最强的Claude 3 Opus比GPT-4 Turbo贵得多：GPT-4 Turbo每百万token输入价格为10美元，输出价格为30美元，Claude 3 Opus每百万token输入5美元，输出75 美元。

Claude 3的定价

目前Claude 3 Haiku 尚未推送，Sonnet已经开放在Claude的官网上可以免费试用，Opus也已经上线，不过要体验Opus需要花每月20美元（不含税）订阅Claude Pro。相对于ChatGPT，目前Claude的全系产品均不能直接链接互联网查询资料。

安全第一

“安全、稳定”一直被认为是Claude的一大特点。

Anthropic开发了所谓的“宪法AI”技术，旨在将一系列原则赋予模型，以引导模型产生符合这些原则的文本，例如非有害、有益的内容。这种方法旨在使Claude 2的行为更易于理解和调整，尽管公司承认在预测模型在所有情况下的行为方面仍面临挑战。

Claude 2的另一个重点是降低模型产生有害、有偏见或不准确回应的概率。比如，与Claude 1.3相比，Claude 2在内部评估中在给出“无害”回应方面表现得“两倍”更好。但是，这种改进的具体含义并未详细说明，例如是指两倍不太可能回应带有性别歧视或种族歧视的内容，还是两倍不太可能支持暴力或自残等。

由此，Claude模型曾被质疑“道德标准过高”。

此次发布的Claude 3，在安全性和伦理性方面也进行了改进，包括对有害内容的更好管理和对有益行为的支持，同时减少了对良性提示的拒绝反应。

在训练数据方面Anthropic也格外小心，尽量规避可能的风险。

Claude 3的训练数据来自2023年8月之前公开可获得的互联网信息、第三方提供的非公开数据、数据标注服务和付费合同工提供的数据以及Anthropic专门制作的数据集上训练的。Anthropic采用了多种数据清洗和过滤方法，包括去重和分类。值得注意的是，Claude 3的模型系列没有使用任何用户或客户提交给我们的用户提示或输出数据进行训练，包括免费用户、Claude Pro用户和API客户。

在获取通过爬取公共网页的数据时，Anthropic遵循行业实践，尊重网站运营者通过robots.txt指令和其他信号用来指示是否允许爬取其网站内容的做法。根据Anthropic的政策，其爬虫不会访问受密码保护或需要登录的页面，也不会绕过CAPTCHA控制。

Anthropic对所使用的数据进行了尽职调查，并以透明的方式运营其爬虫系统，这意味着网站运营者可以轻松识别Anthropic的访问并向Anthropic表达他们的偏好。

OpenAI的尴尬处境

Claude“过于安全”的属性，也成了OpenAI的压力。

Claude发布前月余，业界一直有传闻认为，OpenAI将在Claude 3发布之际，迅速跟进发布最新的GPT-4.5（5），或是秘密研发的Q*模型。

不过就在2月29日，马斯克突然对OpenAI提起诉讼，指控OpenAI首席执行官Sam Altman为了追求商业利益，违背了OpenAI“确保AI造福人类”的非盈利性初衷。马斯克要求法院强制OpenAI回归开源，并阻止公司及其创始人以及微软等背后支持者从中获利。

在此之前OpenAI在AGI研发方面就一直饱受质疑，人们对“巨型”AI模型和AGI安全性的担忧与日俱增，一些人甚至认为OpenAI及其他AI大模型公司应该暂时停止研发，等待相关法律、监管制度的逐步健全。

此番全新发布的Claude 3，在模型能力方面继续主打安全、稳定。在Claude 3的衬托之下，如果OpenAI此时发布新模型，能力强则很可能在安全方面刺激监管和舆论敏感的神经，而能力弱，则自然会影响“大模型之王”的形象。

马斯克的突然袭击，似乎搞得OpenAI有点左右为难。Sam Altman如今也不得不把注意力从产品、模型中抽出来，转而关注当下舆论焦点的AI安全问题。

正在发大火箭的马斯克还特意跑来Anthropic点了个赞

就在Claude 3发布几分钟后，Sam Altman也发布了一条X推文，但他的推文却与AI大模型技术和产品无关，而是关于一封公开信。

Sam Altman推文

风险投资家 Ron Conway 和他的公司 SV Angel 发起了一场名为：Build AI for a Better Future（构建人工智能，共创美好未来）的联名公开信活动，旨在强调“最大限度地发挥人工智能的好处并减轻风险”对社会的“集体责任”。OpenAI、Google、Meta、Y Combinator等科技公司、投资机构参与并签署了这份联名公开信。

目前，关于GPT-4.5（5）和Q*的猜测仍未停止，而OpenAI近期是否真的会发布新模型，让我们拭目以待。

GPT-4和Claude谁强？

“跑分”战胜了GPT-4，但具体模型能力方面，Claude 3和GPT-4的差别到底在哪呢？

首先是多模态理解与处理能力，Claude 3能够处理和理解图像和视频帧输入，从而解决超出简单文本理解的复杂多模态推理挑战。

在AI2D科学图表基准测试中，Claude 3的能力得到了展示，尤其是在视觉问答评估方面。这项评估涉及到理解和分析图表，然后根据图表信息回答多项选择题。简单来说，就像在考试中，你被给了一些图表（比如柱状图、线图等），然后要回答一些基于这些图表的问题。Claude 3不仅要理解图表显示的数据，还要准确选择正确的答案。

在这个测试中，Claude 3展现了非常高的准确率，特别是Sonnet版本，在没有任何预备知识（即0-shot设置，也称为零样本学习）的情况下就达到了89.2%的准确率，这表明它非常擅长理解图表和回答相关问题，即使是在没有特定训练的情况下。这种能力对于执行需要图像和文本结合理解的任务非常重要，比如在学术研究、市场分析等领域。

在长文本处理方面，Claude 3模型支持至少1M（1,000,000）个token的上下文，而目前在生产中仅提供最多200k（200,000）token的上下文。在长文档理解、跨文档分析、金融数据分析等方面提供了更详细和可操作的用例。这一点在处理大规模文本数据时，相对于GPT-4可能更有优势，尤其是在需要综合分析和提取大量信息的场景中。

此外，Claude 3的多语言能力也被Anthropic认为是一大亮点。Claude 3 Opus在多语言数学（MGSM）基准测试中达到了超过90%的0-shot成绩，并在8种语言中实现了超过90%的准确率，包括法语、俄语、简体中文、西班牙语、孟加拉语、泰语、德语和日语。这表明Claude 3在多语言理解和推理方面具有较强的能力，尤其是在数学问题解决方面。

最后，Claude 3在长文本理解、推理、编程以及科学查询处理方面均表现出良好的性能。其在长文本问题回答基准测试QuALITY中的表现尤其突出，0-shot和1-shot设置下的表现均优于早期模型，显示了其在理解和处理长文本上的高效能力。

在Claude的技术论文中也提到了一些模型的不足之处。

首先Claude不能联网。虽然用户可以通过直接分享的文档方式互动互动，但Claude只能基于2023年8月之前的数据回答问题，并拒绝识别图像中的人物。

其次是所有大型语言模型（LLMs）都会遇到的问题，生成内容的准确性和偏见，Claude亦会产生错误信息（confabulations）、展现偏见、犯事实错误，并可能被“破解”（jail-broken）。

多语言推理能力的不完备，在处理小语种时性能较不稳定。

多模态能力方面的准确性有待提高，Claude模型有时可能生成关于图像的不准确信息和描述。性能有时也会在处理小图像或低分辨率图像时降低。

最后是新能力的“潜在”负面效应。Claude 3引入了新的多模态、多语言能力等，开发人员认为这些能力有时可能会打破模型原有的“平衡”，某些新改进的能力在其他领域可能造成潜在影响。

论文中提到：随着时间的推移，决定Claude“个性”和能力的数据和影响因素变得相当复杂。在简单可自动化的方式中平衡这些因素，跟踪它们，以及一般减少训练Claude的复杂性，仍然是我们的关键研究问题。

走OpenAI没走的路

Anthropic在Claude 3的发布博客中介绍了三款模型的潜在应用方向，带着浓浓的ToB商业化气息。

Claude 3 Opus：任务自动化，跨 API 和数据库规划和执行复杂的操作、交互式编码；研发，研究回顾、集思广益和假设生成、药物发现；策略，图表、财务和市场趋势的高级分析、预测。

Claude 3 Sonnet：数据处理，RAG 或对大量知识的搜索和检索；销售，产品推荐、预测、定向营销；节省时间的任务，代码生成、质量控制、从图像中解析文本。

Claude 3 Haiku：客户互动，实时互动、翻译中快速、准确的支持；内容审核，捕捉危险行为或客户请求；节省成本的任务，优化物流、库存管理、从非结构化数据中提取知识。

外界一直认为Anthropic是一家有着重度ToB基因的公司。

Anthropic在C轮融资中，引入了Google、Salesforce、Zoom等技术和服务市场上的ToB科技巨头，这些合作伙伴对AI公司的诉求必然是将先进的AI技术集成到自己的产品和服务中，以提高效率、创新能力和竞争力。

此外，Anthropic已经与Zoom开展合作，旨在“构建以可靠性、生产力和安全性为中心的面向客户的AI产品”，也清晰地表明了公司的B2B基因。这种合作通常涉及开发能够为企业提供具体价值的解决方案，如改善客户服务、自动化工作流程或提供决策支持等。

Anthropic还与波士顿咨询集团（BCG）合作，旨在将负责任的生成式AI技术引入到企业客户中。通过这一合作，BCG的客户可以直接利用Anthropic的AI系统，包括其最先进的模型Claude 2，这些系统专注于可靠性、可解释性和可控性。

目前，Anthropic声称已拥有多个来自不同行业（包括医疗保健、人力资源和教育等）的客户。

在企业服务和ToB市场上，虽然OpenAI也推出了ChatGPT Enterprise版以及企业的API接口，但相对于Anthropic与企业的深度合作，则ToB属性轻得多。

从这次Claude 3的中提及的很多重点也可以看出，Anthropic希望在商业化方面，走出一条与OpenAI不同的道路。

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

Sora已经被逆向工程“解剖”了

Previous 2024年3月4日

全球最强大模型一夜易主，GPT-4时代终结？

Next 2024年3月5日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

他们让GPT-4看起来像个流氓

相关推荐