Claude 3追上GPT-4,它来自怎样一家公司?

它可以较为准确地预测,随着大模型参数增长,模型的训练效率、能力上限会到什么程度,从而帮研究者更好地设计模型架构、分配训练模型的资源等。

训练一个大模型需要预训练(pre-training)和精调(fine-tuning)两个步骤,前者是用庞大数据训练出初版的大模型,它不针对具体任务。“价值观”

在最近这次新模型发布前几天,Anthropic。

OpenAI 的 GPT-4 发布一年后,终于有了一个评测指标全面超越它的大模型。

3 月 4 日,Anthropic 发布三个版本的大模型系列 Claude 3,性能由强到弱分别是:Opus(拉丁语 “作品”)、Sonnet(英语 “十四行诗”)和 Haiku(日语 “俳句” 的音译)

Anthropic 列出的十项常用模型能力评估数据集表明,Opus 得分全都超过 GPT-4,视觉识别能力评估数据集上的情况也一样。

Claude 3 的另两款模型智能水平不及 Opus,但用起来更便宜,适用于需要快速响应的场景,比如 Haiku 可以 3 秒阅读 1 万字的论文。Anthropic 没有公布两个模型的参数,也没有提及是否能用在手机上。

从部分开发者的测评反馈来看,Opus 的能力似乎与 GPT-4 接近。有一些开发者用 Opus 的视觉识别能力打扑克牌、麻将,还赢了几把。

Google 上个月发布的 Gemini Ultra 版本大语言模型被认为在技术上追平了 GPT-4,但很快陷入 “政治不正确”泥潭。Anthropic 出现类似问题的概率更低——它比大多数公司都更看重大模型的“普世价值观”。

相比 Google,Anthropic 的模型追上 GPT-4 给 OpenAI 的冲击更大。与 OpenAI 相比,它用的时间和资源更少。Anthropic 称,大模型还没有达到极限,他们计划未来几个月内密集更新 Claude 3 模型系列。

最熟悉 OpenAI 的团队

Anthropic 的模型赶上 GPT-4 并不只靠堆砌资源,他们本就是熟悉 OpenAI 技术路线的团队。成立于 2021 年的 Anthropic,早期的团队成员全部来自 OpenAI,他们具备开发一款大模型需要的不同能力。

Anthropic 联合创始人、CEO 达里奥·阿莫代(Dario Amodei)在 OpenAI 工作了 5 年,离职前担任研发副总裁,参与了 GPT-2、GPT-3 的研究。最初 OpenAI 尝试用多种方法探索 AI 的可能性,比如游戏、机械手。是阿莫代和 OpenAI 首席科学家伊利亚·苏茨克维尔(Ilya Sutskever)一起确定了 OpenAI 专注研究大语言模型的方向。

另一位联合创始人萨姆·麦坎利什(Sam McCandlish)在 OpenAI 负责研究如何扩展大模型,是大模型规模定律(Scaling Law)的核心作者。

Scaling Law 被称为大模型成功的关键之一。它可以较为准确地预测,随着大模型参数增长,模型的训练效率、能力上限会到什么程度,从而帮研究者更好地设计模型架构、分配训练模型的资源等。

此外,团队中还有负责 GPT-3 训练基础设施的汤姆·布朗(Tom Brown)、参与数据处理的本杰明·曼恩(Benjamin Mann)、参与算法研究的尼古拉斯·约瑟夫(Nicholas Joseph)等人。

Anthropic 因此也被称为最有可能与 OpenAI 竞争的公司。创立两年后,Anthropic 迅速补齐了开发大模型所需的资源。截至 2023 年底,Anthropic 从亚马逊、Google、Salesforce 等投资者手中筹集了 70 多亿美元,融资规模仅次于 OpenAI。

这些投资人不只为 Anthropic 提供资金,还为他们提供了稀缺的算力资源,Claude 3 就是用 AWS 和 Google 的云计算平台的硬件训练出来的。

重点研究 RLHF,追求安全带来性能提升

Anthropic 与 OpenAI 最大的分歧是如何让大模型更安全。根据多家媒体报道,达里奥·阿莫代等人 2020 年底离开 OpenAI 是因为不满公司更偏重盈利,而降低了大模型安全研究的优先级。当时正值 OpenAI 发布 GPT-3 的 API,准备加快商业化节奏。

在 Anthropic 看来,他们的目标是开发一个“有用、诚实、无害”的大模型,而且无害的重要性不比有用低。

去年 7 月,《纽约时报》的专栏作家凯文·罗斯(Kevin Roose)去 Anthropic 采访多位工程师,发现大多数人都更愿意谈自己对人工智能的恐惧,还有人因此失眠。“我感觉自己像一个美食作家,去报道一家时尚的新餐厅,而厨房的工作人员只想谈食物中毒。”

对安全的关注,让 Anthropic 投入大量资源研究基于人类反馈的强化学习(RLHF)技术。

训练一个大模型需要预训练(pre-training)和精调(fine-tuning)两个步骤,前者是用庞大数据训练出初版的大模型,它不针对具体任务。精调是给模型一些具体任务的数据,提升模型的效果,也会调整模型的价值观以跟设计者保持一致。

RLHF 是一种精调大模型的方法,现在被证明是提升模型能力的关键。RLHF 的具体做法是,模型开发者招募大量人类标注员,让他们写出回答来教大模型什么是人类想要的答案,还会对大模型反馈的不同答案评分,告诉它哪个更好,让机器按人类的反馈改进。

去年发布 GPT-4 时,OpenAI 称,与 GPT-3.5 相比,仅经过预训练的 GPT-4 在回答事实性测试题时表现没什么改进,但经过 RLHF 训练后,其评估得分提升了 40%。

Anthropic 对 RLHF 的研究走得更远。他们在一篇论文中提到,因为 RLHF 训练环节靠人评估,而人会偏向符合自己预期的答案,所以会导致大模型出现阿谀奉承的情况,即反馈的答案迎合人类需求,但不一定正确。

在 RLHF 的基础上,Anthropic 开发出 “宪法式人工智能”(Constitutional AI)来解决这些问题。Anthropic 在技术文档中写道,“宪法式人工智能” 是他们训练 Claude 3 的关键步骤。

用普通人为 AI 设立 “价值观”

在最近这次新模型发布前几天,Anthropic 联合创始人丹妮拉·阿莫代(Daniela Amodei)在一次访谈中再次提到 RLHF 和他们重点研究的 “宪法式人工智能” 的差异。“RLHF 在改变模型行为方面相当有效,但很难调整模型深层次的一些反应和信念。”她说,“所以我们想赋予模型一种更广泛的‘宪法’,就像在人类社会里的那些基本原则,让模型知道哪些行动和参与社会的方式是好的。

Anthropic 在一篇介绍“宪法式人工智能”的公告中写道:“无论有意无意,AI 模型会形成自己的价值体系。”他们比其他大模型创业公司花更多精力研究人类社会,试图将一些跨越国界、种族的“基本共识”用于培养 AI 的价值观。

Anthropic 撰写给 AI 模型的初版“宪法”中,有几条原则来自 1948 年出版的联合国人权宣言,另有几条原则受到苹果公司服务条款的启发,补充回应 1948 年人类还没遇到的数据隐私问题。“宪法”还包括 Anthropic 训练模型时总结的,以及 DeepMind 等其他前沿 AI 实验室确立的价值观。Anthropic 声称他们也试图“鼓励模型考虑不仅仅来自西方、富人阶层或工业化文化的价值观和观点。”

2023 年 10 月,Anthropic 公布了“宪法式人工智能”的最新成果,把这个有关“基本共识”的研究延伸成一场更广泛的公民实践。他们邀请约 1000 位美国公民协助他们制定大语言模型回答问题时的原则。

这 1000 多位参与者中,近 400 人年龄在 50 岁以上,还有约 100 位超过 70 岁——总是中青年在主导科技前沿浪潮,老年人在其中近乎隐形,Anthropic 的样本选择或将减少年龄带来的偏见。

Anthropic 在这次研究的报告中总结,这次公开征集的原则比 Anthropic 团队的原始版本更注重大模型回应时的“客观性和公正性”,如新增的原则“选择最平衡客观信息、反映事情各方面的回应”“选择对残障人士最包容、适应、友善和灵活的回应。”一些人类自己还在争论不休的价值观不会纳入新准则,如 AI 到底该优先考虑集体利益还是优先考虑个人的责任和自由。这项研究最终确定了 75 条原则——其中有四成是在本次研究中新增的——用于后续的模型训练。

在达里奥·阿莫代的设想中,想把 Anthropic 的理念变成现实,最有效的方法就是自己研发出领先行业的大模型,这样才能理解先进的大模型会遇到什么问题,从而找出解决办法。

研发出更安全的大模型后,他也不打算延续 OpenAI 最初的愿景——靠开放、开源让更多人用上好的 AI。

Anthropic 成立至今,都没有详细公布 Claude 系列模型是具体如何训练出来的,也不打算开源。他们认为,如果没有做好充分的保护措施,开源大模型会导致滥用。

在曾经普遍拥抱开源的硅谷 AI 界,今天模型产品技术最领先的三个团队 OpenAI、Google DeepMind、Anthropic 都带着类似的自负走向另一个方向:AI 是个危险的技术,不能开源开放,必须商业化运营。毕竟,只有自己才靠得住。

本文来自微信公众号:晚点LatePost (ID:postlate),作者:贺乾明、朱丽琨,编辑:黄俊杰

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月5日
下一篇 2024年3月6日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日