Llama3发布,GPT-5你到底在哪里呢?

训练数据

Meta认为训练出最佳LLM的关键是要整理一个大型高质量训练数据集,为此他们投入了大量资源:

Llama3在超过15万亿个公开可用来源的token上进行了预训练,比训练Llama2时的数据集足足大。

扩大预训练规模

为了更有效利用预训练数据,Meta针对下游基准评估开发了一系列详细的扩展法则,在实际训练模型之前就能预测最大模型在关键任务上的性能,来确保最终模型在各种使用场景和能力上都有出色的表现。

真正的“GPT-4级”开源模型就在眼前

而Meta透露,Llama3。

今天AI圈又迎来一件大事:Meta正式发布他们迄今最强的新一代开源大语言模型Llama3。

首批发布的Llama3 8B和Llama3 70B包括预训练和指令微调版本,8K上下文,在两个24K GPU定制集群上使用15万亿tokens数据训练而成,Meta称它们分别是80亿和700亿参数上最好的模型。同时一个参数超过400B的“最大Llama3”也在训练中,社区认为这个模型更恐怖,极有可能超过当前的闭源王者GPT-4 Turbo。

Llama3在各种行业基准测试中表现惊艳,广泛支持各种场景。接下来几个月,Meta将陆续引入新的功能,包括多语言对话、多模态、更长的上下文和更强的整体核心性能,并将与社区分享研究论文。

扎克伯格和Meta首席AI科学家Yann LeCun分别在Instagram和X宣布了这一消息。

网友们在评论区一片沸腾,马斯克前排回应:不错(有种淡淡的忧伤)

我们赶快来看看Llama 3的具体性能表现:

多项测试成绩大幅超过Gemini 1.5和Claude Sonnet

Meta表示,新一代Llama3在Llama2 的基础上有了重大飞跃,确立LLM的新标准。在预训练和后训练过程上的改进大大降低了错误拒绝率,提高了一致性,并增加了模型响应的多样性。在推理、代码生成和指令遵循等方面都得到了极大改善,使得Llama3更加可控。

对照表中可见,Llama3 8B在大规模多任务语言理解、生成式预训练问题回答、编码和数学等LLM核心基准测试上都力挫Gemma 7B和Mistral 7B。Llama3 70B同样战胜 Gemini Pro 1.5和此前被夸爆了的Claude 3 Sonnet。

预训练版本的Llama3 8B和70B也在通用智能评估、困难任务、ARC挑战赛、DROP数据集上把Mitral 7B、Gemma 7B、Gemini Pro 1.0、新出的Mixtral 8x22B 打入手下败将之列。

除了关注LLM标准基准测试项目, Meta还寻求模型在现实场景中的性能优化。为此,他们开发了一套新的高质量人工评估集。包含 1800 个提示,涵盖了“寻求建议、头脑风暴、分类、封闭式问题回答、编码、创意写作、提取、模拟角色/人物、开放式问题回答、推理、重写和总结” 这12 个关键用例。为了防止发生意外过拟合,即使是 Meta自己的建模团队也无法访问它。

在这套评估集上, Llama3 70B与Claude Sonnet、Mistral Medium、GPT-3.5 和上一代Llama2对战后胜率突出。(这里没有把GPT-4和Claude 3 Opus拉来对比,推测后续的400B模型将接过重任。)

Llama 3有哪些技术创新

Meta称,在Llama3的开发过程中秉承了创新、扩展规模和优化简洁性的设计理念。重点关注四个关键要素:模型架构、预训练数据、扩大预训练规模以及指令微调。下面分项来看:

模型架构

Llama3选择了一个相对标准的纯解码器Transformer架构。

相比Llama 2的改进之处有:Llama3使用一个包含128K tokens的分词器,可以更有效地编码语言,从而显著提高模型性能;在8B和70B两种规模上都采用了分组查询注意力(GQA)机制来提高模型推理效率;同时在8192个tokens的序列上训练模型,使用掩码确保注意力不会跨越文档边界。

训练数据

Meta认为训练出最佳LLM的关键是要整理一个大型高质量训练数据集,为此他们投入了大量资源:

Llama3在超过15万亿个公开可用来源的token上进行了预训练,比训练Llama2时的数据集足足大 7 倍,代码量是Llama2的4倍。其中超过5%来自高质量非英语数据,总共涵盖了30多种语言,以为即将到来的多语言使用场景做准备。

Llama3团队开发了一系列数据过滤管道来保证数据质量。他们还进行了大量实验,来评估在最终预训练数据集中混合不同来源数据的最佳方式,以此来选择一个包括STEM、编码、历史知识等等数据类别的最优数据组合,确保Llama3在各种使用场景中表现良好。

扩大预训练规模

为了更有效利用预训练数据,Meta针对下游基准评估开发了一系列详细的扩展法则,在实际训练模型之前就能预测最大模型在关键任务上的性能,来确保最终模型在各种使用场景和能力上都有出色的表现。

在Llama3的开发过程中,团队也对扩展行为有了一些新的观察。例如,尽管一个8B参数模型对应的最佳训练计算量是200B个tokens,但他们的8B和70B参数模型在接受高达15万亿个token训练后,性能仍然呈对数线性提高。

Meta结合了三种并行化方式:数据并行、模型并行和管道并行,来训练最大的Llama3模型。最高效地实现在同时使用16K个GPU训练时,每个GPU的计算利用率超过400TFLOPS。他们还开发了一个先进的新训练堆栈,可以自动进行错误检测、处理和维护,并进行了一系列硬件和可扩展存储系统的改进。最终使总体有效训练时间超过95%,与Llama2相比训练效率提升了约3倍。

指令微调方法创新

为了在聊天场景中充分释放预训练模型的潜力,Meta也在指令微调方法上进行了创新。后训练方法采用监督微调(SFT)、拒绝采样、邻近策略优化(PPO)和直接策略优化(DPO)的组合。在模型质量上的最大改进来自于仔细整理的训练数据,并对人工标注人员提供的标注进行多轮质量保证。

通过PPO和DPO从偏好排序中学习,也大大提高了Llama3在推理和编码任务上的性能。团队发现,当你问模型一个它难以回答的推理问题时,模型会产生正确的推理轨迹:知道如何得出正确答案,但不知道如何选择它。通过在偏好排序上进行训练,模型就能学会如何去选择正确答案。

哪里可以用到

根据官方介绍,Llama 3 将很快在所有主要平台上可用,包括云服务商、API提供商等。从AWS、Google Cloud、Databricks、Snowflake 、NVIDIA NIM到Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure——Llama3将无处不在。它也得到了AMD、AWS、Dell、Intel、NVIDIA和 Qualcomm提供的硬件平台的支持。

对于普通用户来说,最方便直接感受Llama3的方式就是通过Meta AI。

除了在WhatsApp、Messenger、Instagram、Facebook等应用与Meta AI聊天助手对话外,今天还推出了网页版。即开即用,可以输入文本提问来生成图片和简单代码,支持实时搜索,其它功能还不是很完善。如果想存储历史记录则需登录Facebook账号。

真正的“GPT-4级”开源模型就在眼前

而Meta透露,Llama3 8B和70B只是Llama3系列的开始,更多令人期待的东西即将到来。

一个超过400B参数的最大模型正在训练中,开发团队对此感到兴奋。未来几个月,Meta将发布多个新功能,包括多模态、多语言对话能力、更长的上下文窗口以及更强大的整体能力。一旦完成所有Llama3的训练,他们也会发表一篇详细的研究论文供社区参考。

Llama3 8B和70B,加上一个证实了正在训练的400B大模型,无疑向开源社区注入一支超强兴奋剂。

而不久后即将发布的Llama3 400B+会有多厉害?

大神卡帕西给予了很高评价:“Llama3是Meta一个看起来非常强大的模型。坚持基本原则,在可靠的系统和数据工作上花费大量高质量时间,探索长期训练模型的极限。我也对400B模型非常兴奋,它可能是第一个GPT-4级别的开源模型。我想很多人会要求更长的上下文长度。”

同时他也提出了个人请求,希望能有比8B更小参数,理想规模在0.1B到1B左右的模型,用于教育工作、(单元)测试、嵌入式应用等。

英伟达高级研究经理Jim Fan认为,它将标志着社区获得对“GPT-4级别模型”开放权重访问的分水岭时刻,这将改变许多研究工作和草根创业公司的计算方法。

从当前预测数据来看,Llama3 400B+已经足以匹敌市场上最强大的Claude 3 Opus和GPT-4。而Llama-3-400B仍在训练中,有望在接下来的几个月中变得更好。“有如此强大的基础设施,可以解锁很多研究潜力。期待整个生态系统的建设者能量激增!”

一个让所有人必须考虑的事实就是:开源模型追上闭源模型的历史时刻可能就在眼前了。

这对开发者可能意味着,AI应用可以更加快速地涌现和迭代出来。

而对创业公司们来说,则意味着更彻底的思路上的冲击。

它直接影响到所有以闭源模型API为核心的商业模式——既然免费的足够好用,为什么还要花钱呢?

更重要的是,如果连OpenAI、Google和Anthropic神秘的工具箱都不再高不可攀,那做一个比不上开源最强水平的闭源模型的意义何在呢?

最后还是不得不问一句:GPT-5,你到底在哪里呢?

本文来自微信公众号:硅星GenAI (ID:gh_e06235300f0d),作者:张潇雪

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月19日
下一篇 2024年4月19日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日