Google对轰OpenAI：喊了121次AI，台下观众都快睡着了

2024年5月15日 08:12 • 未来科技

昨天 OpenAI 发布了 ChatGPT-4o 后，压力就给到了 Google I/O ，仿佛 Google 无论如何也摆脱不了“AI 界的汪峰”这一称号。

而 Google 则通过近 2 个小时的发布会，提了 121 次 AI ，推出了十余种新品及升级，可谓“量大管饱”，火力全面覆盖，但给人的惊喜却并不多。

我们先给大家一次性总结这场发布会的亮点，更多功能解析请接着往下看。‍

发布会要点：

Google Search AI：发布了 AI Overviews，加强版 AI 搜索概要功能，多步推理能力上架。
Gemini 大模型：Gemini 1.5 Flash（100 万上下文）；Gemini Pro（200 万上下文）。
Gemma 大模型：发布开源多模态大模型 Pali Gemma 和 Gemma2。
AI in Google Workspace：用 Gemini 的能力和 Side Panel 的形式，将 Google 系列产品串在一起。
Gemini App：手机版的 Gemini 应用程序，即将支持和 AI 视频对话，近几周发布。
Project Astra：最新的多模态 AI 项目，包含 Imagen3、 Music AI Sandbox 和 Veo 等针对图像、音乐、视频的生成式 AI。

做搜索起家，用搜索王炸

Google Search 是 Google 最大的投资和创新领域之一，更是它们的创始产品。

图/Google I/O

25 年前，Google 开启了搜索功能，昨晚 Google 再次拓展了搜索的边界。

简单来说，有了 AIGC 的 Google Search，可以做到更多事情：无论你在想什么，无论你需要完成什么，只要问问（它），Google Search 就能找到。

而 Google Search 的一切进化，都是建立在专为其定制的 Gemini 模型上。

Google 在发布会上介绍，“与众不同”的 Google Search，主要有三个独特的优势：

Google 的实时信息包括超过一万亿个关于人、地点和事物的事实
名列前茅的产品，和最好的网络服务之一
Gemini 的力量

把将这三件事结合在一起，就解锁了 Google 在搜索领域的全新能力。

第一个新功能是 AI Review，用户可以通过在搜索结果的顶部，获取由 AI 大模型生成的摘要，以此简化整个搜索过程，让复杂问题的检索过程，变得简单。

图/Google I/O

Google 称，到今年年底，将有超过十亿人使用 Google Search 中的 AI Review 功能，而且 Google 宣称，这也将会是其搜索引擎 25 年以来最大的更新之一。

Multi-step reasoning 是 Google Search 中的另一个重磅功能。

图/Google I/O

通过全新的多步推理，以后我们做一些生活、工作和出行的计划，会变得非常简单。

比如你可以通过搜索栏来找到“附近最好的瑜伽馆”，随后附近所有关于瑜伽馆的评价评分、课程推荐、距离等重要信息，都会被分类成块，十分清楚地在搜索结果中显示。

图/Google I/O

依靠 Google 自有的庞大数据库，AI 在搜索过程当中可以调用最新、最全的高质量信息，所以搜索结果的准确性和可信性也就有了更多的保障。

目前，Google 在全球包含了超过 2.5 亿个地点，并实时更新，当中还包括评分、评论、营业时间等重要信息。

Planning in Search 是另一个帮你减少负担的更新。

图/Google I/O

比如你现在正在重新调整膳食结构、从头安排饮食计划，不想在早餐、午餐和晚餐时吃通心粉和奶酪。

直接把需求抛给搜索框，Google Search 就能还给你一份按照要求，且合理安排的全新一周食谱。

图/Google I/O

而且，你还可以随时改变条件和细节，搜索的结果也会根据最新的提示实时更新。

如果说上述功能，我们已经在其他公司的产品中见过，甚至用过，那 Ask with Video ，一定会给你一些惊喜。

生活当中有很多物件，都有着各自的专属名称，有些器械出现一些小问题时，也都有着对应的修理方式。但很多时候只有专业人士才能叫得出，也只有他们能“对症下药”。

现在通过 Google Search 的 Ask with Video，每个人都能被称为专家，它相当于一本装在手机里的百科全书。

图/Google I/O

唱片的零部件不起作用了不知道从何下手，相机的快门突然失灵……以前可能要大费周折地寄回厂家售后，但现在用 Google 设备的镜头拍下问题所在，Google Search 就能根据你所遇到的问题初步诊断，一些小故障还能当场给出解决方案。

在发布会的实时演示里，AI 还把整个修理步骤一一列出，按照屏幕上的指示，演示者很快就能解决小麻烦。

图/Google I/O

这个功能，是通过 AI 逐帧分解视频，把每一帧的关键信息导入 Gemini 的长触点窗口挨个分析，并梳理网络中相关的文章、论坛、视频等，从中找到见解，以此实现了 Ask with Video 的智能建议。

比起传统的文字输入，视频最大的好处在于，我们和 AI 的交互过程变得更加直观，用“这里”“这个”等模糊的词语，也能使大模型知道我们指代的到底是什么。

图/Google I/O

Google 称，这些最新的 AI 功能，将会在未来几周内于实验室功能推出，这也意味着更强大的 Google Search 离落地已经不远了。

后续版本中，它甚至还将能基于页面中视频的自动字幕来寻找答案，不知道会不会抢了那些“1 分钟看完 XX 电影”博主的饭碗。

图·歌·片，瞄着 OpenAI 打

如果说前两天的 GPT-4o 是 AI 再一次给世界带来了一点震撼，那昨晚 Google 官宣的 Project Astra 则是震撼的延续。

Project Astra 是 GoogleMind 的原型——一个通用人工智能助手。

图/Google I/O

和 GPT-4o 的使用效果类似，用户可以通过它和 AI 实时对话，以及视频聊天。

发布会的演示可以很好地表现这个新功能，工作人员在演示视频中将手机镜头对准身边的物品，并向 Project Astra 提出一些疑问，它几乎能做到零延时准确回答。

例如 Project Astra 能说出音响上半部分的是高音喇叭，对电脑屏幕上显示的代码也能轻松识别其具体作用。

Google 称：“我们的新项目专注于构建一个未来的人工智能助手，它可以在日常生活中真正提供帮助。”

基于更强大的 AI 性能，Google 在 I/O 上还宣布了另外三个实用功能，它们分别在“图像”“音乐”“视频”领域，体现着先进技术的“未来感”。

Imagen 3 是 Google 发布的最新的图像生成模型。

图/Google I/O

它可以更加理解我们的提示词，并以此创建更加逼真的图像。

发布会上展示的“狼”的生成图片，就是 Imagen 3 在一段叙述中，准确提取了 8 个细节信息，并且在图片中都有体现。

图/Google I/O

不难发现，生成图片不仅细节准确，而且十分逼真。

Imagen 3 还能应对一些更加抽象的图片创作，例如根据“彩虹色”“羽毛组成的 light”“黑色背景”的提示，生成的创意图片。

图/Google I/O

就像是它很清楚你想要什么。

发言人甚至在发布会上开玩笑式地炫耀：“你可以用它来数别人脸上的胡须。”

在音乐生成方面，Google 也有了新的突破。

Music AI Sandbox 是最新推出的音乐生成模型，Google 这次在 I/O 现场还请来了 Marc Rebillet 坐镇分享。

图/Google I/O

根据艺人创作的一小段音乐 demo，Music AI Sandbox 能在此基础上拓展延长，还可以进一步按照用户输入的提示词，如音乐风格和种类等，进行乐曲的二度创作。

Google 称，它们和 YouTube 一起构建了 Music AI Sandbox：“这是一套专业的 AI 音乐工具，可以从头开始创建新的乐器部分，在轨道之间转换风格等，以帮助我们设计和测试它们。”

另一个实用模型名为 Veo，专注于生成视频。

图/Google I/O

用户只需输入相关的文本、图像或视频提示，Veo 就能创建高质量的 1080p 规格的视频，时长也达到了 60 秒之久。

它能以不同的视觉和电影风格捕捉指令中的详细信息。

图/Google I/O

例如，我们可以在提示中输入事物、横向或延时的航拍照片，并使用其他提示进一步编辑视频。

一直以来，视频生成 AI “只在理论上成立”，其实有诸多阻碍，其中走向“能用”的最大门槛是：视频生成时间只有短短几秒，一般只能在一两个动作里反复横跳。

图/Google I/O

所以 Sora 发布之初才会引起广泛的讨论，而从昨晚开始，Google 的 Veo 也成了大家重点关注的对象，从照片写实主义到超现实主义和动画，大部分的影视风格，它都能处理。

除了 Project Astra 以外，Google 还为我们提供了一个可私人定制的 Gemini ——Gems。

Google 表示，它能在保留指定特征的情况下完成任务，成为千人千面的私人助手，用户可以通过调整定位，使其成为瑜伽好友、虚拟的流行人物、健身伙伴、创意写作指导甚至是微积分导师等，都不在话下。

图/Google I/O

Gemini 狂卷长文本，Gemini 家族再添新成员

Gemini 项目自曝光以来，一直备受关注。起初也曾存在一定争议，但后来也凭借自身实力挽回了口碑，而今也越来越成熟。

据皮查伊介绍，目前有超过 150 万开发人员使用 Gemini 模型，用户数量已经达到 20 亿，如今皮查伊再提“Gemini 时代”，目标是将其集成到所有产品中，为用户带来全新体验，也为创造者、开发者、创业公司创造新的机会。

图/Google I/O

目前最新的 Gemini 1.5 Pro 支持 100 万 token 文本量，今年晚些时候据称这个数字将会达到 200 万，能够同时处理 2 小时的视频、22 小时的音频、超过 60000 行代码或超过 140 万个单词。

此外，大会还宣布了基于 Gemini 1.5 Pro 的 Gemini Advanced，据称它可以处理“多个大型文档，总计最多 1500 页，或汇总 100 封电子邮件”，还支持 35 多种语言和 150 多个国家 / 地区。

不得不说，在文本量方面，Gemini 确实很卷，朝着“将任何输入转为任何输出”的目标迈出了一大步。

安全永远是重中之重

自 AI 诞生之初以来，关于如何辨别 AI 生成内容的争论就一直没有停止。Google 的对策是通过 SynthID，为 AI 生成的图像和音频添加不可见的水印，使其更易于区分。

未来 Google 将会把这一范围推广到文本及视频中，并在接下来的几个月里，通过更新生成式 AI 工具包、开源 SynthID 文本水印，帮助更多开发人员更轻松地负责任地构建 AI。

图/Google I/O

Gemini 融入其中后，Android 会在通话过程中，检测到可疑活动时发出警告，例如被要求提供社会安全号码和银行信息，属于是直接把“反诈中心”装手机上了。

还有无障碍功能 TalkBack 也将通过 Gemini Nano 增强，图像描述将更加清晰和丰富，帮助视力不佳的用户通过语音反馈更好地操作手机，体现出 Google 一贯的人文关怀。

图/Google I/O

而对于 Google 昨晚的表现，英伟达 NVIDIA 研究经理 Jim Fan 的评价：十分中肯。

Google 新发布的模型似乎是多模态输入，但不是多模态输出的 Imagen3 和 Music AI Sandbox 仍然作为独立组件与 Gemini 分离，但将所有模态 I/O 原生合并是不可避免的未来。

它可以执行任务，如“使用更机器人化的声音”“编辑这幅图像”“生成一致的漫画条带”。

而且还不会在模态边界上丢失信息，例如情感和背景声音，全新模型打开了新的上下文能力，用户也能通过少量示例教导模型，并以新颖的方式结合不同的意义。

GPT-4o 并不完美，但它正确地掌握了形式因素，用安德烈的 LLM 视为操作系统的比喻来说：我们需要模型本地支持尽可能多的文件扩展名。

Google 做对了一件事：他们终于努力将人工智能整合到搜索框中。

Gemini 不必是最好的那一个，但却可以成为最广泛使用的一个。

本文来自微信公众号：APPSO （ID：appsolution），作者：凡博、王萌

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

Customer Service Training: A Quick Guide for Mastering Service Excellence

Previous 2024年5月15日

刚刚，Ilya官宣离职OpenAI，“下一个项目意义重大”

Next 2024年5月15日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

Google对轰OpenAI：喊了121次AI，台下观众都快睡着了

相关推荐