GPT-4地位难保，谷歌Gemini新王登基？

2023年12月7日 07:54 • 未来科技

MMLU 的目的是提供一个全面且多样化的方法，测试和评估语言模型在各种复杂和现实世界场景中的表现。其中的测试任务可能包括理解笑话、回答有关世界历史的问题、解释科学现象等众多更接近于人类知识、常识和理解能力的项目。

在MMLU测试中超越人类专家，也可以理解为，在这个测试框架下，Gemini在“各种复杂和现实世界场景中的表现”超越了人类专家。

Gemini的下一步规划

虽然谷歌在技术文件和官方博客中把Gemini吹得很神，好像已经把OpenAI踩在脚下了。

当地时间12月6日，谷歌官宣了其最新大模型Gemini 1.0。

Gemini 1.0与LLaMA模型相似，也是一套系列模型，其中包含三个版本：

Gemini Ultra——参数量最大，能力最强，适用于高度复杂的任务。

Gemini Pro——可扩展至各种任务的模型。

Gemini Nano——高效的设备端任务模型。

Gemini 1.0主打多模态能力，谷歌将Gemini定义为一款“原生多模态（natively multimodal）”模型。

在模型能力方面，谷歌称Gemini Ultra的性能在大型语言模型（LLM）研发中使用的 32 个广泛使用的学术基准中的 30 个超过了当前最先进的结果。

在MMLU（大规模多任务语言理解）测试框架中，Gemini Ultra 的得分高达 90.0%，甚至超越了人类专家。

Gemini被谷歌CEO Sundar Pichai称为“谷歌迄今为止最大、能力最强的AI模型”。

Sundar Pichai在Gemini的官宣博客中写道：

“在许多领先的基准测试中都具有最先进的性能。谷歌的第一个版本 Gemini 1.0 针对不同尺寸进行了优化：Ultra、Pro 和 Nano。这些是 Gemini 时代的第一个模型，也是谷歌今年早些时候成立 Google DeepMind 时的愿景的首次实现。这个模型的新时代代表了谷歌作为一家公司所做出的最大的科学和工程努力之一。我对未来以及双子座将为世界各地的人们带来的机会感到由衷地兴奋。”

目前，谷歌官方称其主打的聊天机器人 Bard已升级至Gemini Pro版本，能力在推理、规划和理解等方面得到显著提升，并继续免费向用户提供服务。谷歌预计明年初推出更为先进的“Bard Advanced”，届时将采用 Gemini Ultra。

在Gemini发布之前，谷歌在生成式AI和LLM方面主推的两款模型PaLM 2和LaMDA，在用户当中收获的评价一直不高，相对于业界领军的GPT-4差距很大。

由此，传闻中谷歌重点研发的Gemini模型一直被寄予厚望。Gemini也是谷歌大脑（Google Brain）和DeepMind合并组建Google DeepMind之后的首个重要产品。

下面我们来看看，Gemini到底牛在哪？

超过人类专家，向强人工智能迈近一步？

“Gemini在MMLU基准测试中超越人类专家。”

虽然，有了AlphaGo的经验，我们并不认为AI在某些领域超越人类是什么新鲜事。但今时不同往日，在ChatGPT带来的AGI、强人工智能“威慑”下，任何被称为超越人类的AI，多多少少都会引人侧目。

那么在这个测试集中超越人类专家，到底有多厉害呢？

大型语言模型（LLM）的主流评测数据集包括：GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于评估模型在语言理解、推理、阅读理解和常识推理等方面的能力。

MMLU（大规模多任务语言理解）是一个结合了数学、物理、历史、法律、医学和伦理学等57个科目的测试集。相比于其他测试集，MMLU的广泛性和深度更强，它通过大量和多样的任务来测试AI模型在理解自然语言方面的能力，特别是在复杂和多变的真实世界场景中的表现。这使得MMLU成为一个极具挑战性的评测框架，可以全面地评估和推动大型语言模型的发展。

GPT-4与Gemini在MMLU测试集的对比

这个框架通常包括数以千计的不同任务，涵盖广泛的主题和挑战。MMLU 的目的是提供一个全面且多样化的方法，测试和评估语言模型在各种复杂和现实世界场景中的表现。其中的测试任务可能包括理解笑话、回答有关世界历史的问题、解释科学现象等众多更接近于人类知识、常识和理解能力的项目。

在MMLU测试中超越人类专家，也可以理解为，在这个测试框架下，Gemini在“各种复杂和现实世界场景中的表现”超越了人类专家。

谷歌在官方博客中称：Gemini利用MMLU基准方法使Gemini能够利用其推理能力在回答难题之前更仔细地思考，从而比仅使用第一印象有显着改进。

除此之外，Gemini Ultra 还在新的MMMU（专家 AGI 的大规模多学科多模式理解和推理）基准测试中取得了59.4%的最先进分数，该基准测试由跨越不同领域、需要深思熟虑的推理的多模态任务组成。

谷歌的测试显示Gemini Ultra 的性能优于之前最先进的模型，无需从图像中提取文本以进行进一步处理的对象字符识别 (OCR) 系统的帮助。这些基准凸显了双子座天生的多模态性，并表明了双子座更复杂推理能力的早期迹象。

Gemini在文本和编码等一系列基准测试中的表现

在某个测试集中超越人类专家，对于AGI或者强人工智能来说虽然还相去甚远，但仍可以说是在这条路上迈出的坚实一步。

原生多模态，比GPT-4更强大？

其实Gemini的LLM性能表现并不是他最大的亮点。Gemini真正值得关注的差异化能力是“原生多模态”。

首先，什么是“Gemini’s native multimodality”（Gemini的原生多模态能力）？

原生多模态能力，指的是Gemini模型固有的能力，可以直接理解和处理多种不同类型的数据，而不需要额外的专门处理或转换。

有人可能会疑惑，那这与GPT-4有何不同？

打个简单的比方：假如GPT-4是一个诗人，他不仅擅长写诗，还会画画，但写诗是他的职业，画画只是他的副业。GPT-4能处理文字（写诗）和图片（画画），但它主要还是以文字处理为强项。

具有“原生多模态能力”的Gemini则是一个诗人、画家“双料人才”，他在写诗和画画方面同样出色，没有哪一方面比另一方面弱。Gemini能够同时处理文字和图片，并且在这两个方面都做得很好，没有主次之分。

GPT-4的多模态能力可能更多地是通过将不同模型的能力集成到一个框架中来实现的，而不是所有功能都在一个统一的模型中原生实现。作为一个大型语言模型，GPT-4的主要优化和训练是围绕语言理解和生成。对于图像处理，虽然它展现了一定的能力，但可能不如那些专门针对图像处理优化的模型。而一个真正的本地多模态模型会在所有模态上都进行平衡和优化。

Gemini的多模态理解能力

原生多模态能力意味着模型能够更自然、高效地处理和融合多种类型的数据，这在实现更复杂的AI应用方面具有重要意义。

当然，这也是更接近人类的理解方式。人类在理解世界时自然地融合了视觉、听觉和语言等多种感官信息。一个具有本地多模态能力的AI模型在处理信息时也采用了类似的综合方式，这更接近于人类的理解和认知方式。

全方位“打败”GPT-4

Gemini不仅是在模型能力和多模态能力方面敢与GPT-4一争高下。在应用方面，也提供了更多选择。

“小模型”

模型系列中的最小尺寸的Gemini Nano模型，被设计为适用于内存受限的端侧设备。它在多种任务上展示了出色的性能，尤其是在多模态和多语言处理方面。Gemini Nano的这些特性使其成为适合在资源受限环境中使用的强大工具。

虽然目前大模型的主流趋势仍是“依云而生”，但在AI未来的商业化版图中，离线、个人化、小型化的端侧模型正在受到越来越多的重视。

过去几个月中，高通、联想等众多巨头都在反复强调自己在端侧生成式AI的战略布局。高通推出的最新一代骁龙芯片对生成式AI提供了强大的支持能力，联想则提出AI PC概念，并强调未来一段时间里将围绕AI对已有的全部产品展开大刀阔斧地改革。

然而，硬件设备厂商非常活跃的同时，AI厂商对端侧的关注却并不怎么高。以百模大战的国内市场为例，目前只有个位数的厂商正式宣布过自己的端侧小模型。其中包括雷军在8月的年度演讲中提到的小米MiLM模型的13亿参数版本，以及通义千问在12月1日开源的Qwen-1.8B模型。

在这方面，相比OpenAI，谷歌更有动力去研究端侧小模型。毕竟谷歌本身具备Pixel手机和Android的双重优势。

训练

谷歌在训练Gemini过程中大量使用了自研的张量处理单元（TPU）v4 和 v5e。

在 TPU 上，Gemini 的运行速度明显快于早期、较小且功能较差的型号。这些定制设计的人工智能加速器一直是谷歌人工智能产品的核心，这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play 和 Android 等数十亿用户提供服务。它们还使世界各地的公司能够经济高效地训练大规模人工智能模型。

Google 数据中心内的一排 Cloud TPU v5p AI 加速器超级计算机

随着Gemini的问世，谷歌也宣布了TPU系统的最强升级Cloud TPU v5p，专为训练尖端 AI 模型而设计。

在训练优化方面，Gemini增加了对模型并行性和数据并行性的利用，并对网络延迟和带宽进行了优化。Gemini还使用了Jax和Pathways编程模型，为复杂的数学运算（如在机器学习中常见的运算）提供了优化的支持。

Jax特别适用于高效地执行大规模的数组运算。Pathways指用于管理和协调大规模训练任务的编程模型或框架。通过使用这些工具，Gemini模型的开发者可以使用单个Python进程来协调整个训练过程，这样可以简化开发和训练工作流，同时利用Jax和Pathways的高效性能。

复杂推理能力

Gemini 1.0 复杂的多模式推理功能可以帮助理解复杂的书面和视觉信息。这使得它在发现大量数据中难以辨别的知识方面具有独特的能力。

批改物理作业

其通过阅读、过滤和理解信息从数十万份文档中提取见解的卓越能力将有助于在从科学到金融的许多领域以数字速度实现新的突破。

Gemini 1.0 经过训练，可以同时识别和理解文本、图像、音频等，因此它可以更好地理解微妙的信息，并可以回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。

编程

Gemini可以理解、解释和生成世界上最流行的编程语言（如Python、Java、C++和Go）的高质量代码。它跨语言工作和推理复杂信息的能力使其成为世界领先的编码基础模型之一。

Gemini Ultra在多个编码基准测试中表现出色，包括HumanEval（用于评估编码任务性能的重要行业标准）和Natural2Code（谷歌内部保留的数据集），该数据集使用作者生成的源而不是基于网络的信息。

Gemini还可以用作更高级编码系统的引擎。两年前，谷歌推出了达到竞赛水平的AI代码生成系统AlphaCode。如今基于Gemini技术开发，刚刚又开发了AlphaCode 2，专门针对竞技编程任务进行了优化和增强。

Gemini的下一步规划

虽然谷歌在技术文件和官方博客中把Gemini吹得很神，好像已经把OpenAI踩在脚下了。但今天的发布其实只是一个“论文”而已，真正有能力对标GPT-4的Gemini Ultra要到明年年初才会上线。

Gemini家族的老二，Gemini Pro目前已经准备开始为谷歌的对话机器人产品Bard提供支持了。

谷歌在博客中称：从今天开始，Bard将使用Gemini Pro的微调版本来进行更高级的推理、规划、理解等。这是 Bard 自推出以来最大的升级。它将在170多个国家和地区提供英语版本，谷歌计划在不久的将来扩展到不同的模式并支持新的语言和地点。

不过，截至发稿，在bard上的测试仍显示未升级到Gemini，且bard对Gemini的了解也十分有限。

提问Bard是否已经升级Gemini

Gemini Nano则被规划到了Pixel。谷歌将在Pixel 8 Pro中首次内置Gemini Nano。这款手机将支持Recorder应用中的Summarize等新功能，并从WhatsApp开始推出Gboard中的 Smart Reply，明年还会推出更多消息应用。

从12月13日开始，开发者和企业客户可以通过 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 访问 Gemini Pro 。

Google AI Studio是一款基于网络的免费开发者工具，可使用 API 密钥快速构建应用程序原型并启动应用程序。当需要完全托管的 AI 平台时，Vertex AI 允许对 Gemini 进行自定义，提供全面的数据控制，并受益于额外的 Google Cloud 功能，以实现企业安全、安全、隐私以及数据治理和合规性。

Android 开发人员还可以通过 AICore（Android 14 中提供的新系统功能，从 Pixel 8 Pro 设备开始）使用 Gemini Nano（谷歌最高效的设备端任务模型）进行构建。

除此之外，Gemini已经确定会很快融入到谷歌的业务中。在接下来的几个月中，Gemini将出现在更多谷歌产品和服务中，例如搜索、广告、Chrome 和 Duet AI。

谷歌称已经开始在搜索中试验Gemini，它使用户的搜索生成体验（SGE）更快，美国英语的延迟减少了40%，同时质量也得到了提高。

值得注意的是，对于谷歌来说，搜索始终是其看家业务。Gemini在谷歌搜索、广告业务中的全面铺开，可能会彻底改变未来的广告和营销逻辑。

在最近的一次工业软件研讨会中，一位工业企业高管对虎嗅吐槽说，“谷歌的竞争对手在互联网上铺了很多软文，但是我们没有买软文。这就导致这些软文成了LLM训练的数据，进而沉淀到它的知识库中。在AI的意识里，我们的竞争对手已经被看作是默认的行业标准了。”

这种现象，早在2022年底，就已经有人预言了，“SEO is Dead, Long Live LLMO”的口号。彼时的ChatGPT还没有联网功能，而今天的Gemini几乎已经确定要融入到谷歌的搜索引擎中，并完全改变未来的网络搜索逻辑。

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

委屈的气候大会主席苏尔坦

Previous 2023年12月7日

谷歌大杀器终于来了，最大规模Gemini模型震撼发布

Next 2023年12月7日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

GPT-4地位难保，谷歌Gemini新王登基？

相关推荐