马斯克突然发布Grok 1.5,但除了这点都不如GPT-4

就在刚刚,马斯克旗下的 xAI 团队突然发布了 Grok-1.5 大模型。

一周前,在众多质疑声中,马斯克如约开源了 GroK-1。今天发布的 Grok-1.5 则在推理和上下文理解能力上有了显著提升。

从基准测试结果来看,Grok-1.5 的能力迎来了巨大的飞跃,全然碾压了此前热门的开源模型 Mistral Large、Claude 2 等,即使面对“宿敌”GPT-4,也互有胜负。

可与 GPT-4 一战?

附上博客原文链接:https://x.ai/blog/grok-1.5

Grok-1.5 在编码和数学领域任务处理能力上迈上了一个比较大的台阶。

从基准测试的结果来看,Grok-1.5 在 MATH 基准测试中取得了 50.6% 的得分,在 GSM8K 基准上,Grok-1.5 获得了 90% 的得分,这两个测试都涵盖了从基础算术到高级数学的广泛领域。

此外,Grok-1.5 在评估代码生成和解决问题能力的 HumanEval 基准测试中得分为 74.1%,超越了 GPT-4。

对此,xAI 团队核心成员也为 Grok-1.5 摇旗呐喊:“我们最新的推理能力升级。在从 Grok 1 版本升级到 1.5 版本的过程中,数学推理能力从 24 %提升至 50%。”

Grok-1.5 另一个比较大的升级是其上下文窗口扩展至 128K,飙升 16 倍,提升到了与 GPT-4 Turbo 相同的档次,能够处理相当于 300 页的文本,相当于可以塞进一部中篇小说。

看起来强得可怕

在处理的文本量大幅提升之余,Grok-1.5 的能力也没落下。在大海捞针(NIAH)的测试中,Grok-1.5 展现了强大的检索能力,瞧瞧这清一水的蓝色,看起来强得可怕。

据 xAI 官方介绍,Grok-1.5 建立在基于 JAX、Rust 和 Kubernetes 构建的自定义分布式训练框架之上。

在大型计算集群上训练 LLMs 时,确保训练作业的高可靠性和长时间的正常运行是一项主要挑战。xAI 团队的自定义训练协调器能够自动检测并排除训练过程中的问题节点。

此外,xAI 团队还优化了检查点创建、数据加载和训练作业重启流程,以减少任何故障导致的停机时间。

Grok-1.5 未来几天内将会向一部分群体开放,后续也将逐步向公众开放。

作为对比,开源的 Grok 1.0 是拥有 314B 参数的先进混合专家模型,也是截至目前参数量最大的开源大型语言模型,其规模相当于 Meta LlaMA 2 70B 的 4.4 倍。

根据 Apache 2.0 许可协议, 现在公众可以自由访问模型的权重和架构。以下是关于 Grok 1.0 的一些关键信息:

  • 模型参数数量高达 314B

  • 混合专家模型(MoE 架构)

  • 每一个数据单元由 2 位专家处理

  • 嵌入向量的维度为 6144

  • 采用旋转式嵌入表示

在 MMLU、GSM8K 等一系列的基准测试中,Grok 1 的表现远胜于 LLaMA 2 70B,但和 Claude 2 以及 GPT-4 仍有不小的差距。

卧虎藏龙的 xAI

去年初,The Infomation 就曾报道马斯克正在积极“招兵买马”,意图筹建一个新的研究实验室,以推出 ChatGPT 的劲敌。

xAI 的官网曾详细介绍了拥有 12 名核心成员的初创团队。除了马斯克之外,其他 11 名成员的背景如下:

Igor Babuchkin:人工智能研究者,在 DeepMind 和 OpenAI 工作时累积过丰富的经验。参与过 AlphaStar 项目(用 AI 在星际争霸上击败人类冠军)

Manuel Kroiss:软件工程师。曾在 Google 和 DeepMind 等科技巨头工作,在强化学习和人工智能领域作出过重要贡献。论文Reverb: A Framework for Experience Replay的联合作者。

Yuhuai(Tony)Wu:人工智能研究者、计算机科学家。因其在 Google N2Formal 团队和一家秘密初创公司作为自动化数学家和形式推理方面的工作而闻名。

Christian Szegedy:在深度学习、人工智能、计算机视觉、影像分析和形式推理方面拥有专业知识。曾就职于 Google, 担任研究科学家。拥有波恩大学应用数学博士学位。

Jimmy Ba:多伦多大学助理教授。正在领导一项有关深度神经网络高效学习算法的开发研究。CIFAR-AI(加拿大高等研究院人工智能与社会项目)主席,2016 年 Facebook 机器学习研究生奖学金获得者。

Toby Pohlen:曾任 DeepMind 研究工程师,在机器学习、强化学习领域拥有丰富经验。参与 AlphaStar League 和 Ape-X DQfD 等项目。以全班第一名的成绩毕业于德国亚琛工业大学计算机科学专业。

Ross Nordeen:曾任特斯拉的技术项目经理,将帮助团队构造过滤器。

Kyle Kosic:曾就职于 OpenAI 等 AI 公司。拥有丰富的机器学习、物理学和应用数学的学术背景。

Greg Yang:曾就职于微软研究院,于 2018 年荣获摩根奖(Morgan Prize)荣誉奖。

Guodong Zhang:机器学习和人工智能领域的研究者,曾就职于多伦多大学和矢量研究所(Vector Institute),因研究大语言模型的训练、调整、对齐而闻名,撰写过多篇相关领域的论文。他是 2022 年 Apple 博士奖学金,2020 年 Borealis 人工智能奖学金的获得者。

Zihang Dai:曾任 Google 研究员,拥有清华大学和卡内基梅隆大学的学位,在百度美国分公司和蒙特利尔大学的 mILA 进行过研究实习。

当然,仅靠这 11 个核心成员就想推出 Grok AI 助手显然是不切实际的,所以 xAI 也同步开启了招人计划,招揽 AI 相关的技术人才加入。

现在,xAI 的技术团队也迎来了极速壮大,甚至光从名字的甄别上,你就能从中发现不少华人活跃的身影。

对于即将到来的 Grok-1.5 ,前 OpenAI 开发者关系主管直接在线点赞。

玩梗这种事,还是得看网友。

前不久,埃隆·马斯克在 X 发文称,本周晚些时候,Grok 将向 X 平台所有订阅高级服务的账户开放。

但这一次,比起免费的开放使用,我们更关心地是,Grok-1.5 短时间内还会开源吗?

本文来自微信公众号:APPSO (ID:appsolution),作者:时刻在线的APPSO

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月29日
下一篇 2024年3月29日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日