谷歌大杀器终于来了，最大规模Gemini模型震撼发布

2023年12月7日 08:25 • 未来科技

详情可参阅Gemini技术报告：

报告地址：https。

Gemini最基本的模型能做到文本输入和文本输出，但像Gemini。//storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf

更可靠、更高效、可扩展

对谷歌来说同样重要的是，Gemini显然是一个效率更高、更可靠、可扩展的模型。

Gemini是谷歌一直在等待的模式，在OpenAI和ChatGPT接管世界后，Gemini是谷歌探索一年得出的结论。

谷歌的复仇大杀器Gemini，深夜忽然上线！

被ChatGPT压着打了整整一年，谷歌选择在12月的这一天，展开最强反击战。

多模态Gemini，迄今规模最大、能力最强的谷歌大模型，在文本、视频、语音等多个领域超越了GPT-4，是真正的一雪前耻。

人类有五种感官，我们所建造的世界、所消费的媒体，都是以这样的方式所呈现。

而Gemini的出现，就是迈向真正通用的AI模型的第一步！

Gemini的诞生，代表着AI模型的巨大飞跃，谷歌所有的产品，都将随之改头换面。

塞进多模态模型的搜索引擎、广告产品、Chrome浏览器……这，就是谷歌给我们的未来。

多模态的史诗级创新

以前，多模态大模型就是将纯文本、纯视觉和纯音频模型拼接在一起，就像OpenAI的GPT-4、DALL·E和Whisper那样。然而，这并不是最优解。

相比之下，在设计之初，多模态就是Gemini计划的一部分。

从一开始，Gemini就在不同模态上进行了训练。随后，研究人员又用额外的多模态数据进行了微调，进一步提升了模型的有效性。最终，实现了“无缝”地理解和推理各种模态的输入内容。

从结果上来看，Gemini的性能要远远优于现有的多模态模型，而且它的功能几乎在每个领域都是SOTA级别的。

而这个最大、最有能力的模型，也意味着Gemini可以用和人类一样的方式理解我们周围的世界，并且吸收任何类型的输入和输出——无论是文字，还是代码、音频、图像、视频。

Gemini猜对了纸团在最左边的杯子里

Google DeepMind首席执行官兼联合创始人Demis Hassabis表示，谷歌一直对非常通用的系统感兴趣。

而这里最关键的，就是如何混合所有这些模式，如何从任意数量的输入和感官中收集尽可能多的数据，然后给出同样多样化的响应。

DeepMind和谷歌大脑合并后，果然拿出了真东西。

之所以命名为Gemini，就是因为谷歌两大AI实验室的合体，另外也有一个解释是参考了美国宇航局的Gemini项目，后者为阿波罗登月计划铺平了道路。

首次超越人类，大幅碾压GPT-4

虽然没有正式公布，但根据内部消息，Gemini有万亿参数，训练所用的算力甚至达到GPT-4的五倍。

既然是被拿来硬刚GPT-4的模型，Gemini当然少不了经历最严格的测试。

谷歌在多种任务上评估了两种模型的性能，惊喜地发现：从自然图像、音频、视频理解到数学推理，Gemini Ultra在32个常用的学术基准的30个上，已经超越GPT-4！

而在MMLU（大规模多任务语言理解）测试中，Gemini Ultra以90.0%的高分，首次超过了人类专家。

Gemini是第一个在MMLU（大规模多任务语言理解）上超越人类专家的模型

MMLU测试包括57个学科，如数学、物理、历史、法律、医学和伦理，旨在考察世界知识和解决问题的能力。

在这50多个不同学科领域中的每一个中，Gemini都和这些领域最好的专家一样好。

谷歌为MMLU设定的新基准，让Gemini在回答复杂问题前，能够更仔细地发挥推理能力，相比于仅依赖于直觉反应，这种方法带来了显著提升。

在新的MMMU基准测试中，Gemini Ultra也取得了59.4%的高分，这一测试包括了跨越不同领域的多模态任务，这些任务需要深入的推理过程。

图像基准测试中，Gemini Ultra的表现也超过了之前的领先模型，而且，这一成就是在没有OCR系统帮助的情况下实现的！

种种测试表明，Gemini在多模态处理上表现出了强大的能力，并且在更复杂的推理上也有着极大潜力。

详情可参阅Gemini技术报告：

报告地址：https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

中杯、大杯、超大杯

Gemini Ultra是谷歌迄今为止创建的最强大LLM最大，能够完成高度复杂的任务，主要面向数据中心和企业级应用。

Gemini Pro是性能最好的模型，用于广泛的任务。它会为许多谷歌的AI服务提供动力，并且从今天起，成为Bard的支柱。

Gemini Nano是最高效的模型，用于设备端任务，可以在安卓设备上本地和离线运行，Pixel 8 Pro的用户就能马上体验到。其中，Nano-1的参数为1.8B，Nano-2为3.25B。

Gemini最基本的模型能做到文本输入和文本输出，但像Gemini Ultra这样更强大的模型，则可以同时处理图像、视频和音频。

不仅如此，Gemini甚至还能学会做动作和触摸这种更像机器人的功能！

以后，Gemini会获得更多的感官，变得更加有意识，更加准确。

虽然幻觉问题仍然不可避免，但模型知道的越多，性能就会越好。

文本、图像、音频精准理解

Gemini 1.0经过训练，可以同时识别和理解文本、图像、音频等各种形式的输入内容，因此它也能更好地理解细微的信息，回答与复杂主题相关的各类问题。

比如，用户先是上传了一段非英语的音频，然后又录了一段英语的音频来提问。

要知道，一般设计音频的归纳，都是用文字输入prompt。而Gemini却可以同时处理两段不同语言的音频，精准输出所需要的摘要内容。

更厉害的是，如果我想做一个煎蛋，不仅可以用语音问Gemini，还可以把手头有的食材拍个照片一并发过去。

然后，Gemini就会结合音频中发送的需求，以及配图中的食材，手把手教你该怎么做好一个煎蛋。

甚至，每完成一步，都可以拍个照片，而Gemini则可以根据实际进度继续指导下一步该做什么。

手癌星人、不会做饭星人都有救了！

而且，这项能力还使Gemini特别擅长解释数学和物理等复杂学科的推理问题。

比如，家长想在辅导孩子作业的时候省点事，该怎么办呢？

答案很简单，直接拍张图上去，Gemini的推理能力足以解决数学、物理等各类理科问题。

针对其中任何一个步骤，都可以追问Gemini来获得更具体的解释。

甚至，还可以就出错的点，直接让Gemini输出一个和出错类型相似的题目巩固一下。

复杂推理轻松搞定

此外，Gemini 1.0具有的多模态推理能力，可以更好地理解复杂的书面和视觉信息。这使得它在发掘埋藏在海量的数据中难以辨别的知识方面具有优越的性能。

通过阅读、过滤和理解信息，Gemini 1.0还能够从成千上万的文档中提取出独到的观点，从而助力从科学到金融等众多领域实现新的突破。

AlphaCode 2：编码能力超85%的人类选手

当然，基准测试终究只是测试，对Gemini的真正考验，是想要用它来写代码的用户。

写代码，就是谷歌为Gemini打造的杀手级功能。

Gemini 1.0模型不仅可以理解、解释和生成世界上最主流的编程语言，比如Python、Java、C++和Go的高质量代码。同时它能够跨语言工作，并对复杂信息进行推理。

从这一点看，Gemini毫无疑问会成为世界领先的编程基础模型之一。

两年前，谷歌推出过一款叫做AlphaCode的产品，它也是第一个在编程竞赛中达到具有竞争力水平的AI代码生成系统。

而基于定制版的Gemini，谷歌推出了更先进的代码生成系统——AlphaCode 2。

在面对不仅涉及编程，还涉及复杂的数学和计算机科学理论等领域的问题时，AlphaCode 2都表现出了卓越的性能。

在与初代AlphaCode同样的测试平台上，谷歌的开发人员也对AlphaCode 2进行了测试。

结果显示，新模型展现出了显著的进步，解决的问题数几乎是之前AlphaCode的两倍。

其中，AlphaCode 2编程的性能超过了85%的人类程序员，相比之下，AlphaCode只超过了约50%的程序员。

不仅如此，当人类程序员与AlphaCode 2协作时，人类程序员为代码样例设定特定的要求，Alphacode 2的性能会进一步提升。

AlphaCode 2的运作依托于强大的LLM，并结合了专为竞赛编程设计的先进搜索和重排机制。

如下图所示，新的模型主要由以下几部分组成：

多个策略模型，用于为每个问题生成各自的代码样本；

采样机制，能够生成多样化的代码样本，以在可能的程序解决方案中进行搜索；

过滤机制，移除那些不符合问题描述的代码样本；

聚类算法，将语义上相似的代码样本进行分组，以减少重复；

评分模型，用于从10个代码样本集群中筛选出最优解。

详情可参阅Alpha Code 2技术报告：

报告地址：https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf

更可靠、更高效、可扩展

对谷歌来说同样重要的是，Gemini显然是一个效率更高、更可靠、可扩展的模型。

它是在谷歌自己的张量处理单元上训练的，比谷歌以前的模型（如PaLM）运行起来更快、更便宜。

开发人员使用了谷歌内部研发的张量处理单元TPU v4和v5e，在AI优化的基础设施上对Gemini 1.0进行了大规模的训练。

而可靠、可扩展的训练模型和最高效的服务模型，就是谷歌做出Gemini的重要目标。

在TPU上，Gemini的运行速度明显快于早期规模较小、能力较弱的模型。这些定制设计的AI加速器是谷歌大模型产品的核心。

要知道，这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play和Android等数十亿用户提供服务。它们还帮助了世界各地的科技公司经济、高效地训练大模型。

除了Gemini，谷歌在今天还发布了迄今为止最强大、最高效，并且可扩展的TPU系统——Cloud TPU v5p，专为训练尖端的AI模型而设计。

新一代TPU将加速Gemini的发展，帮助开发人员和企业客户更快地训练大规模生成式AI模型，开发出新产品和新功能。

Gemini，让谷歌再次伟大？

显然，在Pichai和Hassabis看来，Gemini的发布仅仅是一个开始——一个更大的项目即将开启。

Gemini是谷歌一直在等待的模式，在OpenAI和ChatGPT接管世界后，Gemini是谷歌探索一年得出的结论。

发布“红色警报”后，谷歌一直在追赶，但两人都表示，不愿意为了跟上步伐而走得太快，尤其是我们越来越接近AGI。

Gemini是否会改变世界？最好的情况是，它能帮谷歌在生成式AI竞赛中赶上OpenAI。

但劈柴、Hassabis等人似乎都认为，这是谷歌真正伟大的开始。

今天发布的技术报告，没有透露架构细节、模型参数或训练数据集。

艾伦人工智能研究所前CEO Oren Etzioni说，“没有理由怀疑Gemini在这些基准上比GPT-4更好，但没准GPT-5会比Gemini做得更好。”

打造像Gemini这样的巨量模型，可能需要花费数亿美元，但对于在通过云提供AI占据主导地位的公司来说，最终的回报可能是数十亿甚至数万亿美元。

“这是一场不能失败，必须打赢的战争。”

参考资料：

https://blog.google/technology/ai/google-gemini-ai/#availability

https://deepmind.google/technologies/gemini/#hands-on

本文来自微信公众号：新智元（ID：AI_era），作者：新智元

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

GPT-4地位难保，谷歌Gemini新王登基？

Previous 2023年12月7日

淘宝的路，亚马逊迟早走一遍

Next 2023年12月7日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

谷歌大杀器终于来了，最大规模Gemini模型震撼发布

相关推荐

Share To :