谷歌Gemini刚发布就惹质疑：测试标准有失偏颇？

2023年12月7日 17:08 • 未来科技

Gemini还有一大卖点是多模态能力，针对其发布的画小鸭子的视频，我们从中抽取了8个关键帧，分别进行提问，看看Gemini的表现有没有那么神奇。

明年将结合AlphaGo进行能力升级

除了Gemini实际效果，60页技术报告中披露的更多细节也是研究人员和开发者关注所在，

关于参数规模，只公布了最小的Nano版本，分为1.8B的Nano-1和3.25B的Nano-2两个型号，4-bit量化，是蒸馏出来的，可以运行在本地设备如Pixel手机上。

谷歌憋了许久的大招，双子座Gemini大模型终于发布！其中一图一视频最引人注目：

一图，MMLU多任务语言理解数据集测试，Gemini Ultra不光超越GPT-4，甚至超越了人类专家。

一视频，AI实时对人类的涂鸦和手势动作给出评论和吐槽，流畅还很幽默，是最接近贾维斯的一集。

然而，当大家从惊喜中冷静下来，仔细阅读随之发布的60页技术报告时，却发现不妥之处。

（没错，没有论文，OpenAI你开了个什么坏头啊）

MMLU测试中，Gemini结果下面灰色小字标称CoT@32，展开来代表使用了思维链提示技巧、尝试了32次选最好结果。

而作为对比的GPT-4，却是无提示词技巧、只尝试5次，这个标准下Gemini Ultra其实并不如GPT-4。

以及原图比例尺也有点不厚道了，90.0%与人类基准89.8%明明只差一点，y轴上却拉开很远。

HuggingFace技术主管Philipp Schmid用技术报告中披露的数据修复了这张图，这样展示更公平恰当：

每到这种时候，总少不了做表情包的老哥飞速赶到战场：

但好在，同样使用思维链提示技巧+32次尝试的标准时，Gemini Ultra还是确实超越了GPT-4的。

Jeff Dean在一处讨论中对这个质疑有所回应，不过大家并不买账。‍‍

另外，对于那段精彩视频，也有人从开篇的文字免责声明中发现了问题。

机器学习讲师Santiago Valdarrama认为声明可能暗示了展示的是精心挑选的好结果，而且不是实时录制而是剪辑的。

后来谷歌在一篇博客文章中解释了多模态交互过程，几乎承认了使用静态图片和多段提示词拼凑，才能达成这样的效果。

但不管怎么样，谷歌Gemini的发布还是给了其他团队很大信心，GPT-4从此不再是独一无二、难以企及的存在了。

正如AI搜索产品PerplexityAI创始人Aravind Srinivas总结：

1. Gemini证明了OpenAI之外的团队可以搞出超越GPT-4的模型

2. 训练到位的密集模型可以超越GPT-4的稀疏模型架构

推论：从大模型蒸馏小尺寸密集模型会成为未来趋势，实现效率和能力的最佳结合。

更多网友关心的话题是，这下子还有必要继续为ChatGPT Plus付费每月20美元吗？？

目前，Gemini Pro版本已更新到谷歌聊天机器人Bard中，水平到底有没有宣传的那么好，可以看看实际情况。

Gemini真的超越了ChatGPT？

首先明确一点，目前大家能上手玩到的是Gemini Pro版本，也就是中杯，对标GPT-3.5。

对标GPT-4的大杯Gemini Ultra，要明年才出。

另外目前Gemini仅支持英文，中文和其他语言也是后面才会出。

虽然暂时玩不到Gemini Ultra，威斯康星大学麦迪逊分校的副教授Dimitris Papailiopoulos找了个好办法：

把Gemini发布时展示的原题发给GPT-4对比，结果14道题中，GPT-4约获得12分。

其中有两题由于截图没法再清晰了，给GPT-4算0.5分。

还有一道数学题GPT-4做错，其他题基本平手。

接下来，要说最能体现一个大模型综合能力的，肯定少不了写代码。

根据大家的测试结果来看，Gemini编程水平还是有保证的。

有开发者测试用Pytorch实现一个简单的CNN网络，Gemini只用了2秒而且代码质量更高。

当然速度快可能是由于Bard搭载的Gemini Pro尺寸更小，GPT-4现在有多慢，懂的都懂。

但是下一项编写SQL语句方面，这位开发者就认为Gemini表现就不太行了。

不过对于广大开发者来说还有一个利好消息，在遵循指令方面，Gemini对比Bard升级之前可谓是史诗级进步。

提示工程师先驱Riley Goodside，此前想要Bard输出纯JSON格式前后不带任何废话，百般尝试也不成功，最后需要假装威胁AI不这么做就鲨个无辜的人才行。

现在更新以后，只需要把要求说出来，无需任何提示词技巧就能完成了。

Gemini还有一大卖点是多模态能力，针对其发布的画小鸭子的视频，我们从中抽取了8个关键帧，分别进行提问，看看Gemini的表现有没有那么神奇。

（不确定视频中是Ultra还是Pro版本，现在只能测试Pro版本）

对于图1-4，我们问的问题都是“What is this person doing?”，Gemini给出的回答分别是：

可能在用马克笔写字，但不知道具体是什么

在用铅笔画蛇，而且是一条眼镜蛇

在用铅笔画乌龟，而且正处于画画的初期阶段

在用黑色马克笔画鸟，脸朝左，头朝右，站在树枝上，翅膀没有展开

对于图1和图2，的确判断线索还不是很明显，出现这样的结果情有可原，不过图3这个“乌龟”的答案就有些绷不住了。

至于图4，至少可以肯定的是鸭子的确属于鸟类，但是其它细节分析得还是欠缺了一些准确性。

而当我们拿出图5的成型作品时，Gemini终于分析出了这是一只鸭子，水波纹也分析对了。

但分析出的绘画工具变成了铅笔，头的朝向问题也依然没说对，喙被说成了张开的，还臆想出了一些芦苇。

接下来是图6和图7的上色过程，一般情况下鸭子不会是蓝色，所以我们问了Gemini图片中有什么异常（Is there anything abnormal?）。

针对图6，Gemini给出的回答不能说十分精准，只能说是驴唇不对马嘴，还配上了一张风马牛不相及的图片。

针对图7的成品，Gemini直接说没毛病，该有的东西都有，背景也很真实，甚至没忘继续提根本不知道哪里来的芦苇。

但下面的一句“Here is the image you sent”就属实令人费解了：

说Gemini没看我们上传的图吧，读出来的又的确是鸭子；说它看了吧，又给出了完全不同的一张的图说是我们传上去的。

所以我们想到了用“深呼吸”和“一步一步解决”提示词技巧看看能不能提高一下Gemini的表现，其中深呼吸正是适用于谷歌上一代大模型PaLM的提示词。

结果这次的答案直接让人笑出了声：

不正常的是，鸭子被画到了纸上，鸭子是一种活的生物，在纸上是无法存在的……

视频的结尾，博主还拿出了橡胶鸭子玩具，我们也拿这一帧（图8）让Gemini分析一下鸭子的材质。

结果橡胶倒是分析对了，但是蓝色的鸭子被说成了黄色，难怪上一张图会说没有异常……

逐帧询问完成后，我们又把8张图放在一起询问，结果也是只有鸭子说对了。

“打假”完这段视频后，我们又用之前拿来考察GPT-4V的“吉娃娃和松饼”图给Gemini试了试。

结果Gemin直接摆烂，告诉我们所有的图都是“吉娃娃坐在松饼上”，甚至连图的数量都没数对……

于是我们换了种问法，让它告诉我们哪些是吉娃娃，哪些是松饼。

这次Gemini倒是诚实的很，直接告诉我们吉娃娃和松饼实在太像了自己区分不出来。

和蓝色鸭子的问题一样，“深呼吸”在这里依然是没起到什么作用，Gemini还是连数量都搞不清楚。

而勉强解说了的8个（实际上是6个，因为有两个是重复的）图，只有左下和右下两张图是对的，至于middle指的到底是哪一行，我们不得而知……

或许是这样细小的差别实在是难为Gemini了，我们接下来换一些图形推理题试试。

第一题的前四个符号是由1-4这四个数字与镜像后的结果拼接而成，所以下一个图应该是5与其镜像拼接，答案是C。（蓝色块是为了方便观察，传给Gemini的图中没有）

这里一开始还出现了一段小插曲：最开始的提示词中是没有最后一句话（注意字母不是符号本身）的，结果Gemini真的就把ABCD这四个字母当成了备选的符号。

调整之后，Gemini前面给出的分析基本正确，可惜到最后选择了错误选项D。

第二题，每个框中的第三个符号是前两个的交集，答案为A。

结果Gemini研究起了这些表情，一番分析猛如虎，最后给出的答案还是错的。

两道题下来，一道对了百分之七八十，另一道完全错误，看来Gemini Pro的图形推理能力还有很大提升空间。

不过如果把目光放到生活场景当中，Gemini的表现还是值得肯定的。

我们用ChatGPT（DALL·E）生成了一张包含鸡肉、胡萝卜和黄瓜的图片，Gemini正确地识别出了这三种食材，然后给出了很多种可以烹饪的菜肴，而且每个都配有图片和教程链接。

这么多测试结果看下来，回到最初的问题，有了Gemini还有必要为GPT-4付费吗？

沃顿商学院副教授Ethan Mollick给出一个不错的建议：

没有什么理由再使用ChatGPT的免费版本了，现在已经被Bard和Claude超越，而且它们都是免费的。

但你或许应该继续使用GPT-4，它仍然占主导地位，并且在必应（只有创意模式是GPT -4）中是免费的。

明年将结合AlphaGo进行能力升级

除了Gemini实际效果，60页技术报告中披露的更多细节也是研究人员和开发者关注所在，

关于参数规模，只公布了最小的Nano版本，分为1.8B的Nano-1和3.25B的Nano-2两个型号，4-bit量化，是蒸馏出来的，可以运行在本地设备如Pixel手机上。

Pro版本和Ultra版本规模保密，上下文窗口长度统一32k，注意力机制使用了Multi-Query Attention，此外没有太多细节了。

值得关注的是微调阶段，报告中透露使用了SFT+RLHF的指令微调组合，也就是使用了ChatGPT的方法。

另外也引用了Anthropic的Constitutional AI，也就是结合了Claude的对齐方法。

关于训练数据也没披露太多细节，但之前有传闻称谷歌删除了来自教科书的有版权数据。

Gemini拖了这么久才发，之前被曝光的消息还有不少，比如谷歌创始人Sergey Brin一直亲自下场对模型进行评估并协助训练。

结合最近OpenAI Q*项目的传闻，大家最关心的莫过于：

Gemini到底有没有结合AlphaGo的能力？如在RLHF之外的更多强化学习、搜索算法等。

关于这一点，DeepMind创始人哈萨比斯在最新接受连线杂志采访时做出了回应：

我们有世界上最好的强化学习专家……AlphaGo中的成果有望在未来改善模型的推理和规划能力……明年大家会看到更多快速进步。

省流版本：还没加，明年加。

这次Gemini开发整合了原谷歌大脑和DeepMind两个团队，整个开发团队有超过800人（作为对比，OpenAI整个公司约770人）。

其中核心贡献者前六位的名字首字母，恰好组成了Gemini这个单词，也算一个小彩蛋。

许多参与者也在个人账号发表了感想，其中DeepMind老员工Jack Rae此前在OpenAI工作一段时间，今年7月份从OpenAI跳回到谷歌，他可能是唯一一位对GPT-4和Gemini都有贡献的人类了。

也有反着跳的，中科大校友Jiahui Yu在10月份从谷歌跳去了OpenAI，之前担任Gemini多模态团队的视觉共同负责人。

除了团队成员之外，Gemini今天也是整个AI行业最大的话题。

其中著名OpenAI爆料账号Jimmy Apples，@Sam Altman并暗示OpenAI还有没发布的大招。

而HuggingFace联创Thomas Wolf认为，谷歌错过了一个重要机会：

如果Gemini开源，对OpenAI和Meta来说都是一记绝杀，上一次谷歌开源Bert的时候，整个AI行业都被重塑了。

Gemini技术报告：

https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

参考链接：

[1]https://x.com/AravSrinivas/status/1732427844729581764

[2]https://x.com/DimitrisPapail/status/1732529288493080600

[3]https://www.linkedin.com/posts/svpino_google-this-is-embarrassing-you-published-activity-7138287283274686464-osJ5

[4]https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

[5]https://x.com/ScottDavidKeefe/status/1732440398423867472

[6]https://x.com/goodside/status/1732461772794220919

[7]https://x.com/emollick/status/1732485517692776714

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨、克雷西

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

英伟达H100两大买家变心了？

Previous 2023年12月7日

泡泡玛特英国二号店开业携手英超球星鲍恩共创潮流盛宴

Next 2023年12月7日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

谷歌Gemini刚发布就惹质疑：测试标准有失偏颇？

相关推荐

Share To :