OpenAI和Meta逼太紧,谷歌被迫开源?

张俊林的判断是,如果是做当前最强大的大模型,目前看还是要拼模型规模,这方面开源模型相对闭源模型处于明显劣势,短期内难以追上。

而在开源领域,张俊林的判断是应该把主要精力放在开发并开源出性能足够强的“小规模大模型”上(SLLM,Small。

图片来自谷歌

至此,大模型开源形成三巨头局面:谷歌。

参考文章:
李志飞:《Google发布开源大模型Gemma,差点意思》,飞哥说AI
张俊林:《谷歌正式推出开源大语言模型。

昨夜,谷歌罕见地改变了去年坚持的“大模型闭源”策略,推出了“开源”大模型 Gemma。

Gemma 采用了与 Gemini 相同的技术,由谷歌 DeepMind 与谷歌其他团队共同合作开发,在拉丁文中意为 “宝石”。

Gemma 包括两种权重规模的模型:Gemma 2B 与 Gemma 7B,每种规模都有预训练与指令微调版本。同时,谷歌还推出了一系列工具,旨在支持开发者创新,促进合作,并指导如何负责任地使用 Gemma 模型。

这样一来,谷歌在大模型领域形成了双线作战——闭源领域对抗 OpenAI,开源领域对抗 Meta。

在人工智能领域,谷歌可以算是开源的鼻祖。今天几乎所有的大语言模型,都基于谷歌在 2017 年发布的 Transformer 论文;谷歌发布的 BERT、T5,都是最早的一批开源 AI 模型。

然而,自从 OpenAI 在 2022 年底发布闭源的 ChatGPT,谷歌也开始转向闭源策略。此后,开源大模型被 Meta 的Llama 主导,后来被称为“欧洲版 OpenAI”的法国开源大模型公司 Mistral AI 走红,其 MoE 模型也被众多 AI 公司追捧。

无论在闭源还是开源领域,有世界上最前沿技术储备与人才储备的谷歌,都没能确立绝对的领先地位。

如今,闭源与开源双线作战,这是谷歌的妙手、本手还是俗手?

一、谷歌被迫开源?

谷歌开源大模型的发布时间,比 Meta 的 Llama 晚了整整一年

对此,出门问问创始人李志飞表示:“相比于去年上半年就开源,现在可能要花数倍的努力进行模型的差异化以及推广的投入、才有可能在众多开源模型中脱颖而出。”

同时,李志飞认为谷歌的开源力度也不够,还是被动防御和扭扭捏捏的应对之策,不是进攻。“比如说,开个7B的模型实在是太小儿科了,一点杀伤力都没有。应该直接开源一个超越市场上所有开源的至少 100B 的模型、1M 的超长上下文、完善的推理 infra 方案、外加送一定的 cloud credit。是的,再不歇斯底里 Google 真的就晚了。面对 OpenAI 的强力竞争,只有杀敌一千、自损一千五。”

李志飞感觉,谷歌觉得自己还是 AI 王者,放不下高贵的头颅,很多发布都有点不痛不痒,还是沿着过去研发驱动的老路而不是产品和竞争驱动,比如说不停发论文、取新名字(多模态相关模型过去半年就发了 Palme、rt-2、Gemini、VideoPoet、W.A.L.T 等等)、发布的模型又完整度不够,感觉就没有一个绝对能打的产品。谷歌可能需要意识到在公众眼中,他们在 AI 领域已经是廉颇老矣溃不成军,经常起大早赶晚集(比如说这次 Sora 借鉴的 ViT、ViViT、NaVit、MAGVit 等核心组件技术都是它家写的论文)

但作为前谷歌总部科学家,李志飞也希望谷歌希望亡羊补牢未为晚。他表示:“Google 作为一个僵化的大公司,动作慢一点可以理解,但是如果再不努力是不是就是 PC 互联网的 IBM、移动互联网的 Microsoft ? 作为 Google 的铁粉,还是希望它能打起精神一战,AI 产业需要强力的竞争才能不停往前发展,也需要它在前沿研究和系统的开源才能帮助一大众贫穷的 AI 创业公司。”

另一位 AI 专家——微博新技术研发负责人张俊林认为,谷歌重返开源赛场,这是个大好事,但很明显是被迫的。

张俊林表示:“去年 Google 貌似已经下定决心要闭源了,这可能源于低估了追赶 OpenAI 的技术难度,Bard 的推出令人大失所望,这使得谷歌不得不面对现实,去年下半年进入很尴尬的局面,闭源要追上 OpenAI 估计还要不少时间,而开源方面 Meta 已下决心,还有 Mistral 这种新秀冒头,逐渐主导了开源市场。这导致无论开源闭源,谷歌都处于被两面夹击,进退为难的境地。”

很明显,Gemma 代表谷歌大模型策略的转变:兼顾开源和闭源,开源主打性能最强大的小规模模型,希望脚踢 Meta 和 Mistral;闭源主打规模大的效果最好的大模型,希望尽快追上 OpenAI。

图片来自 X

大模型到底要做开源还是闭源?

张俊林的判断是,如果是做当前最强大的大模型,目前看还是要拼模型规模,这方面开源模型相对闭源模型处于明显劣势,短期内难以追上 GPT-4 或 GPT-4V。而且这种类型的大模型,即使是开源,也只能仰仗谷歌或者 Meta 这种财大气粗的大公司,主要是太消耗资源了,一般人玩不起。国内这方面阿里千问系列做得比较好,肯把比较大规模的模型开源出来,当然肯定不是最好的,不过这也很难得了。

而在开源领域,张俊林的判断是应该把主要精力放在开发并开源出性能足够强的“小规模大模型”(SLLM,Small Large Language Model),因此谷歌的开源策略是非常合理的。

目前看,做出强大的 SLLM 并没有太多技巧,主要是把模型压小的基础上,大量增加训练数据的规模,数据质量方面则是增加数学、代码等数据来提升模型的推理能力。比如 Gemma 7B 用 6 万亿 Token 数据,外界猜测 Mistral 7B 使用了 7 万亿 Token 数据,两者也应该大量采用了增强推理能力的训练数据。

所以 SLLM 模型的性能天花板目前也没有到头,只要有更多更高质量的数据,就能持续提升 SLLM 模型的效果,仍然有很大发展空间。

而且 SLLM 相对 GPT-4 这种追求最强效果的模型比,训练成本低得多,而因为模型规模小,推理成本也极低,只要持续优化效果,从应用层面,大家肯定会比较积极地部署 SLLM 用来实战的,市场潜力巨大。也就是说,SLLM 应该是没有太多资源,但是还是有一些资源的大模型公司必争之地。

张俊林相信,2024 年开源 SLLM 会有黑马出现。

二、大模型打压链

从今天起,Gemma 在全球范围内开放使用。该模型的关键细节如下:

  • 发布了两种权重规模的模型:Gemma 2B 和 Gemma 7B。每种规模都有预训练和指令微调版本。

  • 新的 Responsible Generative AI Toolkit 为使用 Gemma 创建更安全的 AI 应用程序提供指导和必备工具。

  • 通过原生 Keras 3.0 为所有主要框架(JAX、PyTorch 和 TensorFlow)提供推理和监督微调(SFT)的工具链。

  • ‍上手即用 Colab 和 Kaggle notebooks,以及与 Hugging Face、MaxText 和 NVIDIA NeMo 等受欢迎的工具集成,让开始使用 Gemma 变得简单容易。

  • 经过预训练和指令微调的 Gemma 模型可以在笔记本电脑、工作站或 Google Cloud 上运行,并可轻松部署在 Vertex AI 和 Google Kubernetes Engine(GKE)上。

  • 基于多个 AI 硬件平台进行优化,其中包括 NVIDIA GPUs 和 Google Cloud TPUs。

  • 使用条款允许所有组织(无论规模大小)负责任地进行商用和分发。

Gemma 是开源领域一股不可忽视的力量。根据谷歌给出的数据,性能超越 Llama 2。

图片来自谷歌

至此,大模型开源形成三巨头局面:谷歌 Gemma、Meta LLama 和欧洲的 Mistral。

张俊林认为,大模型巨头混战形成了打压链局面:OpenAI 处于链条顶端,主要打压对手是有潜力追上它的竞争对手:谷歌和 Anthropic,Mistral 估计也正在被列入 OpenAI 的打压列表中。打压链条为:OpenAI→Google &Anthropic & Mistral→ Meta→其他大模型公司。

比如,谷歌上周发布的 Gemini 1.5 Pro 就是一个有代表性的案例,本身模型实力很强大,但在宣发策略上被 Sora 打到哑火;前年年底发布的 ChatGPT 也是临时赶工出来打压 Anthropic 的 Claude 模型的。

张俊林对此判断:“OpenAI 应该储备了一个用于打压对手的技术储备库,即使做得差不多了也隐而不发,专等竞争对手发布新产品的时候扔出来,以形成宣传优势。如果 OpenAI 判断对手的产品对自己的威胁越强,就越可能把技术储备库里最强的扔出来,比如 ChatGPT 和 Sora,都是大杀器级别的,这也侧面说明 OpenAI 比较认可 Gemini 1.5 和 Claude 的实力。而这种打压策略很明显还会继续下去,以后我们仍然会经常看到类似的情景,不巧的是,可能其他公司比如谷歌也学会这招了,估计也很快会传导到国内大模型公司范围里。所以 2024 年会比较热闹,估计会有不少大戏上演。”

谷歌开源 Gemma 很明显是针对 Meta 和 Mistral 而来。张俊林据此推测,Meta 的 LLama 3 很快就要发布了,或者Mistral 最近会有新品发布。

参考文章:

李志飞:《Google发布开源大模型Gemma,差点意思》,飞哥说AI

张俊林:《谷歌正式推出开源大语言模型 Gemma,声称超越 Meta Llama-2 竞品,将带来哪些影响?》,知乎问答

本文来自微信公众号:甲子光年 (ID:jazzyear),作者:赵健

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年2月22日 15:04
下一篇 2024年2月22日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日