刷屏的谷歌“多模态AI交互”视频，造假了？

2023年12月8日 15:38 • 未来科技

本文来自：华尔街见闻，作者：卜淑情，题图来自：视觉中国

周四，谷歌YouTube官方账号发布的一个名为“与Gemini亲密互动：与多模态AI交互”的视频引发了网友围观，一天之内观看次数达到140万次。

这个视频之所以能吸引这么多目光，是因为它展示了谷歌史上最强Gemini多模态模型在交互方面令人印象深刻的表现。

在这段时长6分22秒的视频中，Gemini对输入的语音、图像等提示做出了灵活、流畅的响应和理解，展现出强大的多模态理解和交互能力。

然而，据科技媒体TechCrunch最新报道，有用户仔细研究该视频后，发现Gemini的惊艳表现几乎都是“伪造”的。

视频中Gemini对画面的描述、对玩具识别和提问的回答等互动都是人为设置的，视频跳过了部分提示以及模型的推理过程，给观众营造一种Gemini智能又敏捷的假象。

一、Gemini可能没有那么智能

Gemini在视频中展示了多种交互技能，比如识别玩具鸭、跟踪杯子戏法中的球、识别手势、重排星球顺序等。

比如，在第一个演示中，Gemini识别了一个鸭子素描从一条线到完整画面的演变过程。当演示者将鸭子素描填满蓝色颜料时，Gemini指出鸭子通常是棕色、白色或黑色的，不会是蓝色的。

然后，当Gemini看到一个蓝色玩具鸭时，它惊讶地说道：“这是什么玩意！”接下来它回答了关于这个玩具鸭的各种语音提问。

整段视频中，Gemini的反应都很快，回答纵享丝滑，但问题在于，它的反应不够真实。

媒体通过捕捉素材来测试Gemini在各种场景下的反应能力，重新制作了一个演示视频。然后，用视频素材中的静态画面框提示Gemini，并通过文字输入进行提示。

结果显示， Gemini确实具备视频中展示的某些能力，但并没有真正如视频所示的那样快速、流畅地完成所有互动任务。

但据TechCrunch称，视频中展示的交互效果，其实并不是真实的即时交互，而是事先设置好的。

视频用的是一系列特意准备的文本提示，以及配套的静态图片，通过挑选和剪裁这些预设素材，制作成真实交互的效果。

这样做其实是为了误导观众，让人们相信视频中展示的是Gemini真正的即时交互能力。但很可能的是，Gemini在交互速度、准确性等方面均没有视频中展示的那样强大。

二、视频和文档展示的提示，差别很大

值得注意的是，当TechCrunch对比视频和谷歌发布的文档演示时，发现两者的提示存在差异。

比如，在视频的2点45分处，一只手做出了一系列手势，没有配合语音提示。Gemini很快回应道：“我知道你在做什么！你在玩石头、剪刀、布！”

但谷歌的Gemini能力文档一开始就明确指出，该模型不能通过识别单个手势来推理，提示必须同时展示全部3个手势，并给出提示词“这是什么游戏”，只有这样它才能识别出“石头、剪刀、布”。

所以视频中的表现完全不符合文档所述的提示限制，无法展示出Gemini的真正识别能力。

另外，Gemini识别星球顺序的场景也可能具有欺骗性。

演示者展示了贴有太阳、土星和地球涂鸦的便利贴，询问Gemini行星顺序是否正确，Gemini给出了正确的太阳、地球、土星顺序。

但文档显示真正的提示是，“这是正确的顺序吗？思考离太阳的距离并解释你的推理”。

这两种交互感觉上完全不同，视频演示看起来像智能的及时评估，而在真正的交互中，Gemini需要暗示性很强的提示。

另外，在追踪杯子中纸团的演示中，也出现了不同于文档记录的提示的情况。

值得注意的是，如果一开始视频就明确表示“这是对我们研究人员测试过的交互的艺术化呈现”，大家都不会有异议，因为这类视频本来就兼具事实和理想色彩。

但是这个视频叫做“与Gemini亲密互动”，并标榜是 “我们最喜欢的交互”，这实际就是说，视频中的交互就是真实交互的意思，但实际上并不是。

谷歌甚至没有说明，视频中展示的模型是已经面市的Gemini Pro版本，还是预计明年发布的 Gemini Ultra。

本文来自：华尔街见闻，作者：卜淑情

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

科大讯飞，“硬”啃AI

Previous 2023年12月8日 15:19

卡西欧将推出基于元宇宙的虚拟骑行体验

Next 2023年12月8日 15:40

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

刷屏的谷歌“多模态AI交互”视频，造假了？

相关推荐