Llama 3发布,亮点在于“小”模型

GPT-3.5,而且需要的算力低、反应快,甚至可以在手机、电脑上本地运行,“希望大家继承这个趋势,训练和发布用更长时间训练更小的模型。架构中,要提升大模型的效果,需要按照特定比例提高训练大模型的数据量、模型本身的参数以及算力。

想要降低成本,最直接的方法是训练参数更小的模型,让用户的手机、电脑直接在本地运行,分担平台的压力。

怎么让更小的模型有更好的效果,成了大模型公司们的竞争焦点。

像一个人的学习成长一样,每个全新的大模型,都需要从大量的文本中学习 “知识”,才有能力去解决一个个问题。

Google 训练 70 亿参数的 Gemma 开源模型,让它 “看过” 6 万亿 Token(6 万亿个词)的文本。微软投资的 Mistral 训练 73 亿参数模型,“看过” 8 万亿个  Token 的文本。

用如此大规模的数据训练参数不到 100 亿的模型,已经是行业中比较重的方法。按照 DeepMind 研究人员提出的策略,如果考虑性价比,这么大的模型,看 2000 亿 Token 的文本就够了。不少中国一线创业公司的同等规模大模型只用了 1 万亿~2 万亿个 Token 的文本。

Meta 的 CEO 马克·扎克伯格(Mark Zuckerberg)不满足于此,他直接把下一代开源大模型送进了 “县中”,用更多习题拔高能力。Meta 昨夜推出的 Llama 3 系列大模型,80 亿参数模型用了 15 万亿 Token 的训练数据,比 Google 的多学了一倍还不止,是很多小公司产品的十倍。

根据 Meta 公布的数据,在 5 个常用大模型能力评估测试集上,它新发布的 80 亿参数模型和 700 亿参数模型,得分基本都比同级竞争对手高。尤其是 80 亿参数的 Llama 3,各项评测得分大幅超过 Google 和 Mistral 开发的同级别模型,数学、编程能力翻倍。Meta 称它们是目前 “功能最强大的、公开可用的大模型”。

Llama 3 在部分测试数据集上得分超过竞争对手。图片来自 Meta。

Meta 透露,他们还在训练 4050 亿参数的大模型,初步评测得分达到 GPT-4 水平。这则消息帮 Llama 3 获得大量关注。英伟达高级研究经理 Jim Fan 说,Meta 让开源社区得到 GPT-4 级别的大模型会是一个行业分水岭,将改变许多研究工作和创业公司的经营状况。

OpenAI 原资深研究科学家安德烈·卡帕蒂(Andrej Karpathy)认为,80 亿参数的 Llama 3 “会非常受欢迎”,效果接近参数更多的 GPT-3.5,而且需要的算力低、反应快,甚至可以在手机、电脑上本地运行,“希望大家继承这个趋势,训练和发布用更长时间训练更小的模型。”

打破 Scaling Laws:用超出行业预期的数据和算力训练模型

2020 年初,OpenAI 提出大模型的 Scaling Laws,认为在 Transformer 架构中,要提升大模型的效果,需要按照特定比例提高训练大模型的数据量、模型本身的参数以及算力。

这个规律在 OpenAI 随后发布的 GPT-3 中得到验证,他们调整这几个元素的配比,以更低的成本训练出更强的模型。

OpenAI 的接连成功,让 Scaling Laws 成为许多研究者训练大模型的关键指引。按照他们发现的规律,其他训练条件不变,大模型参数每提升 5.3 倍,训练数据量需要提升约 1.9 倍、算力提升 10 倍,是最有性价比的方案。

2022 年,DeepMind 的研究者发布论文,认为这个比例不对,低估了训练数据量的要求。他们认为,算力提高 10 倍,模型参数和训练数据量各提升约 3 倍才更有性价比。DeepMind 的新比例取得更好的效果,成为从业者训练大模型的重要参考。

现在,Meta 又进一步提高训练数据的重要性。根据 Meta 公布的信息,他们训练 80 亿参数的 Llama 3 时,把训练数据提到 15 万亿 Token,是 DeepMind 方案估算的 75 倍,发现模型能力达到 700 亿参数 Llama 2 的水平,大幅超过竞争对手。

Meta 为此付出更多算力——用 H100 训练了 130 万个小时,算力成本预计超过 100 万美元。如果用 5000 张 H100 组成的集群计算,需要不间断训练大概 11 天。而在 Meta 只需要 2 天多,因为它有 2.4 万张 H100 组成的算力集群。而且有两个。

一场小模型竞赛正在进行

根据 Meta 的说法,当前版本的 Llama 3 还没有达到性能极限。“我们一直使用的大语言模型,明显缺乏训练。(训练数据量)可能需要提高 100~1000 倍,甚至更多。” 安德烈·卡帕蒂说。

OpenAI 用 GPT-3.5 和 GPT-4 证明大模型的实力后,许多公司加速追赶的同时,也在研究如何用更低的成本利用大模型。

与传统的软件应用不同,大模型不仅开发起来费钱,运行起来(推理)也会消耗大量算力资源。大模型想要处理用户输入问题,基本要挨个处理文字中的每个字,处理 100 个字的问题,基本就要运行 100 遍大模型。

英伟达把它当作 GPU 销量增长的空间,但对于想用大模型改造业务、创造新商业机会的公司,却是负担。发布 Llama 3 时,Meta 宣布把它整合到旗下每天有数十亿人使用的 Instagram、Facebook 等产品中,如果用参数较大的模型,推理成本根本无法承受。

想要降低成本,最直接的方法是训练参数更小的模型,让用户的手机、电脑直接在本地运行,分担平台的压力。

怎么让更小的模型有更好的效果,成了大模型公司们的竞争焦点。过去一年,Google 每次发布大模型,都会推出参数较小的模型。Anthropic 发布 Claude 3 系列时也采用类似的做法。不过它们没有详细公布小模型的参数,以及如何让小模型有更好的能力。

根据 The Information 报道,微软选择利用 GPT-4 生成高质量数据,训练更小的模型,以降低部署大模型应用的成本。

Meta 训练 Llama 3 的方法截然不同,但最适合它。为了应对 TikTok 的竞争,Meta 在 2022 年采购了大量 H100,用于训练更强的内容推荐模型,为它奠定算力优势。

为了训练 Llama 3,Meta 动用了两个 2.4 万张 H100 组成的训练集群,今年计划把 H100 数量推到 35 万张——每张 30000 美元。大部分互联网巨头也只有数万张 H100,而且不少还会对外出租。

Meta 接下来大概率会沿着相同的方向,继续做更小的模型。“80 亿参数的模型,对于很多场景来说还不够小。” 扎克伯格接受采访时说,“我很想看到一个 10 亿参数,甚至 5 亿参数的模型,看我们能用它做些什么。”

本文来自微信公众号:晚点LatePost (ID:postlate),作者:贺乾明,编辑:黄俊杰

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月20日
下一篇 2024年4月20日

相关推荐

  • 数字人出海背后,隐藏哪些商业机密?

    某上市公司旗下数字人营销视频创作工具负责人Dour介绍,曾有几个客户向其反馈了极为惊人的数据:使用数字人,一个季度可以完成高达1700~2000小时的直播时长,相当于平均每天直播17个小时。

    在亿邦的调研中,一个常被各种数字人服务商所提及的宏伟设想,或许可以更加具象地展现这门方兴未艾的技术究竟有着多大的想象空间:

    数字人的远期定位,并不是抢“真人”的饭碗,而是在算力爆炸、AI永续迭代的背景下,重构整个电商领域的信息呈现方式。

    未来科技 6小时前
  • 迪士尼想用 AI 改造娱乐业,但它准备好了吗?

     
    乐园:迪士尼的技术试验场
     
    迪士尼乐园不仅是“世界上最快乐的地方”,也是迪士尼前沿技术的实验场。
     
    马克·谢弗曾在人民快运航空和大陆航空从事收入管理工作,他来到迪士尼后,领导一个由 250名员工组成的数据分析团队,对迪士尼乐园的各项业务进行动态定价,并推出了。
     
    2022年,迪士尼推出了人工智能工具。
     
    迪士尼的人工智能困境
     
    1928年,迪士尼推出了世界上首部声画同步动画片《汽船威利》。

    未来科技 6小时前
  • 这个世界变得更精彩,但好像也更无聊了

    那是一个下午,办公室的咖啡机坏了,我在楼下买了一杯厚乳拿铁,上楼后发现同事都出去吃午饭了,我一个人坐在窗边的工位上,升起的阳光正好覆盖在了我的电脑屏幕上,浏览器的文字都变得模糊起来,我眯起眼睛,试图看清屏幕上的字,依稀能看到我的代码编辑器,正在用。

    我是热爱并且积极拥抱这些最新最酷的技术的人之一,但我猛然想到,那些不那么乐意拥抱新技术的人,就一定要被淘汰,这也是让人挺不舒服的一件事。

    未来科技 7小时前
  • 工业AI大模型落地应用的最新实践,都在这里

    上述问题,也正是我们即将在“大鲸AI闭门会·制造专场”上深入探讨的焦点!
     
    6月20日,虎嗅智库将在苏州举办“2024大鲸AI闭门会·工业制造专场”,汇聚信通院、美的、隆基绿能、施耐德电气等权威机构、头部甲方企业、工业智能企业的创新者,独家完整呈现甲方头部完整AI应用落地案例,并将围绕、“智能生产与排程”、“质量分析与数字模拟”、“人机协作与智能制造”等话题,共同探寻AI大模型在工业智造领域的落地应用。

    未来科技 7小时前
  • 果然,美国限制AI出口立法的进程又进一步

    Review(ID:Internet-law-review),作者:互联网法律评论,题图来自:视觉中国

    当地时间2024年5月22日,美国众议院外交事务委员会以压倒性多数,通过了一项限制AI模型出口的法案。

    只是从功用上对“涵盖的人工智能系统”进行了一定的概括,不过,这样的“新定义”基本上涵盖了“任何人工智能系统、软件或硬件”,只要这些物项满足以下条件:

    侵蚀美国国家安全或外交政策的方式。

    未来科技 8小时前
  • 微软Build:GPT-4o重塑Windows,奥特曼剧透新模型

    本文来自微信公众号:APPSO (ID:appsolution),作者:超凡、王萌、崇宇,题图来自:微软Build 今天凌晨,微软带来了一系列重磅产品,一口气发布了50多项更新。 …

    未来科技 8小时前
  • 产业政策的迷失:日本AI败局启示

    本来,日本在神经网络和深度学习方面有很强的底蕴,但在全面为第五代计算机服务的背景下,全社会的资源都在向专家系统这一路径倾斜,甚至连福岛邦彦这样的大佬都很难申请到需要的经费。而当第五代计算机的梦想在二十世纪九十年代最终破裂后,日本干脆削减了对整个AI学科的资金扶持,这就导致了最优秀的人才根本不愿意进入这个领域。

    一旦有日本的AI企业率先从类似的领域发起突围,并真正实现了盈利,那么日本全社会对AI兴趣的低迷就会被扭转,人才也会陆续重新回到这个领域。

    未来科技 8小时前
  • AI已经擅长欺骗人类,其阴暗面令人震惊

    从娱乐至生活,AI欺骗在扩散

    诚然,游戏无疑是一个相对可控的环境,我们可能倾向于认为,这种AI欺骗行为的危害并不严重。

    而且,这种欺骗能力并非仅存在于模型规模较小、应用范围较窄的AI系统中,即便是大型的通用AI系统,比如GPT-4,在面对复杂的利弊权衡时,同样选择了欺骗作为一种解决方案。

    AI欺骗的系统性风险

    毋庸置疑,一旦放任不管,AI欺骗给整个社会带来的危害是系统性和深远的。

    未来科技 8小时前
  • 第一个iPhone刺客,可能要倒下了

    //www.cnet.com/tech/mobile/humane-maker-of-wearable-ai-pin-is-exploring-a-sale-report-says/
    https。//techcrunch.com/2024/05/22/humane-the-creator-of-the-700-ai-pin-is-reportedly-seeking-a-buyer/。

    未来科技 9小时前
  • 第一波收割完的AI创企要跑路了?6年来仅做了一款产品

    创办Humane之前,Chaudhri曾在苹果公司担任设计师长达20年,据报道于2017年被苹果公司解雇,Bongiorno在苹果公司工作了8年,担任iOS和macOS的软件工程总监,并于2016年离职。

    Humane与微软的合作主要是体现在其利用微软的云基础设施搭建技术平台,同时,Humane也将OpenAI的技术集成到其设备中。

    未来科技 9小时前