就在 2 月 8 日,谷歌 Gemini 又迎来一次重大更新。
首先,2023 年年底承诺的 Gemini 最强版本 Ultra,和 Gemini Advanced 服务正式对外发布;另外,谷歌的生成式 AI 品牌迎来收束:Bard 消失了,只保留 Gemini ,此前传闻的 Bard Advanced ,最终证实是 Gemini Advanced。
最后,谷歌生态发力。Gemini Ultra 全方位进入谷歌生态产品,包括安卓端的 Google Assistant、iOS 端的 Google App 、谷歌云、谷歌文档、Gmail 等等。
这是迄今为止,谷歌给予 OpenAI 的最强反击。
Gemini Ultra,无缝接入生态
目前无论是 Google CEO 皮查伊还是 Google Assistant 和 Bard 副总裁兼总经理萧茜茜,都没在 2 月 8 日的官网发布中透露更多技术细节,目前能得知的仅限于皮查伊的部分带有主观色彩的描述:
1. 最大的模型Ultra 1.0是第一个在MMLU(大规模多任务语言理解)上优于人类专家的模型,MMLU使用57个科目的组合——包括数学,物理,历史,法律,医学和伦理——来测试知识和解决问题的能力。
2. 它可以是个人导师,根据您的学习风格量身定制。或者它可以是一个创意合作伙伴,帮助你规划内容策略或制定商业计划。
从去年 12 月的发布来看,Gemini Ultra 的特长是多学科复杂知识的理解和处理上、在MMLU(大规模多任务语言理解)测试框架中,Gemini Ultra 的得分是 90.0%,在新的MMMU(专家 AGI 的大规模多学科多模式理解和推理)基准测试中取得了59.4%的分数。有消息称,Gemini Ultra 1.0 动用了五倍于 GPT-4 的算力进行训练。
GPT-4与Gemini Ultra的性能对比,来自 Google 技术博客
但在 2023 年 12 月 6 日发布时,谷歌表示还在对 Ultra 版本进行微调、强化学习和有对抗的安全检查,至于这一部分工作进展如何,发布中并未提及。不过 Alphabet 的首席科学家 Jeff Dean 表示 Gemini 1.0 技术报告已经更新,重点在第六节和第七节,主要提及 Gemini 1.0 的 Post-trainning(训练后微调)以及模型评估、产品评估等内容。(Gemini 1.0 技术报告下载链接:gemini_1_report.pdf (storage.googleapis.com))
关于付费计划,谷歌称之为 Gemini Advanced,集成在 Google One AI Premium Plan 权益里,标价每月 19.99 美元,比 ChatGPT Plus 便宜一美分,赠送两个月免费试用期和 2T 存储空间。购买之后,就可以在 Gmail、Google Doc 里使用 Gemini——当然,现在还不行,Coming Soon。
此外,谷歌也公布了由 Gemeni Ultra 支持的 Advanced 付费服务,在谷歌生态内的渗透情况,最吸引人的大概是其和 Google Assistant 适配。如果你用的是谷歌的 Pixel 系列手机,那么通过语音“hey google”即可呼出 Gemeni Ultra,既可以为刚刚拍摄的照片起个标题,也可以围绕你正在阅读的文章,提供解读服务。未来还可以对智能家居进行控制。
iOS 系统上,在谷歌应用里,也可以实现到 Gemini 的一键切换,只是在整体体验上,遵循 APP 逻辑,不如Pixel、安卓原生支持 Gemini 的体验丝滑。
在办公工具的协同上,Gemini 1.0 的优势在于提供基于搜索引擎结果的可靠内容,且会有意在回答中添加一些结构化数据,比如表格,表格同样可以便捷导入 Google sheets。
巨头反击的最好方式:攥紧拳头
如果说昨天的发布,绝大部分都回应了 2023 年 12 月的预告,在大家的意料之中,那么 Bard 品牌的消逝,对 Gemini 品牌的全线扶正,则给了人们惊喜,也体现了谷歌的决断力。
巨型企业,为了长期保持竞争力,通常会采用“赛马机制”,在内部多线、并行的对某一领域、某一赛道开展进攻,通过内部竞争来保持活力。但这也让人员变得臃肿、注意力变的分散,当真正的挑战者到来时,巨头往往不能及时调集全部资源,做出反应。投资界将其称之为“创业者的机会窗口”。
2014 年,在收购完成后,Google 几乎拥有世界最强的两个 AI 团队:Google Brain、Google Deepmind,他们创造了 AlphaGo,发明了 Transformer,却在生成式 AI 时代的早期被击溃。
Google 的力量太分散了,且缺乏危机感。
在很长一段时间里,人们很难说清楚 Google 到底有多少个 AI 技术框架和产品:Transformer
、AlphaGo、Bard、Bert、Duplex、Pathways、Imagen、PaLM 1.0/2.0,包括Meena,后来更名为 LaMDA。
Google 实际上很早就注意到了 GPT-3 的表现,但受限于复杂的组织架构和分散的资源,并未引起足够重视。2020 年,Google 基于自己的 Transformer 论文孵化出了 ChatBot :Meena,但据说一直被内部力量阻挠发布、商业化,直到一年后改名 LaMDA 面世。
负责 Meena 项目的两名研究员 Daniel De Freitas 和 Noam Shazeer,因此拒绝了谷歌的多次挽留,愤而离职,创立了今天爆红的 character.ai。
痛定思痛的谷歌,第一刀就砍向了组织:2023 年 4 月,Google DeepMind 和 Google Brain 合并,一致对外。
第二刀发生在昨天:全线收束品牌,全部归拢在 Gemini 之下。Gemini 其实不是 Google 在生成式 AI 领域的推倒重建,它是过去谷歌技术积累的总和——从前人们会讨论,使用了 Pathways 方法的 PaLM 2.0 表现如何,Imagen 在多模态领域表现如何,但今天,只看 Gemini 就可以了,它是一个在 Transformer 基础上创建,融合了 Pathways 方法和 PaLM 成果的全新模型。AlphaGo 的 深度学习能力、Imagen 的多模态能力,都在其中得以彰显。
此外,OpenAI 的成功,持续给谷歌带来强大的压力,也迫使谷歌放弃过于保守的心态。
2月9日有消息称,OpenAI的年化收入已超过20亿美元,据两名了解该公司财务状况的人士称,该公司年运转率(将前一个月的收入乘以12)在2023年12月达到了20亿美元的里程碑。消息人士补充说,OpenAI相信,由于企业客户对使用OpenAI的技术推进生成式人工智能工具在工作场所的运用有浓厚兴趣,该公司可以在2025年将这一数字增加一倍以上。
在 OpenAI 的刺激下,从 PaLM 2.0 到 Gemini 1.0,谷歌用仅仅几个月的时间,实现在各种测试机准上的成绩大幅提升。谷歌的动作也更加敏捷了,2023 全年与生成式 AI 相关的公司级重大发布、调整动作多达 4 起,为历年之最。
此外,谷歌终于发现,相比 OpenAI,自己在生态层面有着巨大优势——在与 OpenAI 争夺用户、客户时,战场不应局限在 Web 端的 Chatbot,而应该扩展至手机、APP、应用平台、办公套件、云服务等多个维度。
到头来,或许谷歌会发现,原来击败 OpenAI 的诀窍并没有多神秘,自己要做的仅仅是攥紧拳头,合力一处。