昨天 OpenAI 发布了 ChatGPT-4o 后,压力就给到了 Google I/O ,仿佛 Google 无论如何也摆脱不了“AI 界的汪峰”这一称号。
而 Google 则通过近 2 个小时的发布会,提了 121 次 AI ,推出了十余种新品及升级,可谓“量大管饱”,火力全面覆盖,但给人的惊喜却并不多。
我们先给大家一次性总结这场发布会的亮点,更多功能解析请接着往下看。
发布会要点:
-
Google Search AI:发布了 AI Overviews,加强版 AI 搜索概要功能,多步推理能力上架。
-
Gemini 大模型:Gemini 1.5 Flash(100 万上下文);Gemini Pro(200 万上下文)。
-
Gemma 大模型:发布开源多模态大模型 Pali Gemma 和 Gemma2。
-
AI in Google Workspace:用 Gemini 的能力和 Side Panel 的形式,将 Google 系列产品串在一起。
-
Gemini App:手机版的 Gemini 应用程序,即将支持和 AI 视频对话,近几周发布。
-
Project Astra:最新的多模态 AI 项目,包含 Imagen3、 Music AI Sandbox 和 Veo 等针对图像、音乐、视频的生成式 AI。
做搜索起家,用搜索王炸
Google Search 是 Google 最大的投资和创新领域之一,更是它们的创始产品。
图/Google I/O
25 年前,Google 开启了搜索功能,昨晚 Google 再次拓展了搜索的边界。
简单来说,有了 AIGC 的 Google Search,可以做到更多事情:无论你在想什么,无论你需要完成什么,只要问问(它),Google Search 就能找到。
而 Google Search 的一切进化,都是建立在专为其定制的 Gemini 模型上。
Google 在发布会上介绍,“与众不同”的 Google Search,主要有三个独特的优势:
-
Google 的实时信息包括超过一万亿个关于人、地点和事物的事实
-
名列前茅的产品,和最好的网络服务之一
-
Gemini 的力量
把将这三件事结合在一起,就解锁了 Google 在搜索领域的全新能力。
第一个新功能是 AI Review,用户可以通过在搜索结果的顶部,获取由 AI 大模型生成的摘要,以此简化整个搜索过程,让复杂问题的检索过程,变得简单。
图/Google I/O
Google 称,到今年年底,将有超过十亿人使用 Google Search 中的 AI Review 功能,而且 Google 宣称,这也将会是其搜索引擎 25 年以来最大的更新之一。
Multi-step reasoning 是 Google Search 中的另一个重磅功能。
图/Google I/O
通过全新的多步推理,以后我们做一些生活、工作和出行的计划,会变得非常简单。
比如你可以通过搜索栏来找到“附近最好的瑜伽馆”,随后附近所有关于瑜伽馆的评价评分、课程推荐、距离等重要信息,都会被分类成块,十分清楚地在搜索结果中显示。
图/Google I/O
依靠 Google 自有的庞大数据库,AI 在搜索过程当中可以调用最新、最全的高质量信息,所以搜索结果的准确性和可信性也就有了更多的保障。
目前,Google 在全球包含了超过 2.5 亿个地点,并实时更新,当中还包括评分、评论、营业时间等重要信息。
Planning in Search 是另一个帮你减少负担的更新。
图/Google I/O
比如你现在正在重新调整膳食结构、从头安排饮食计划,不想在早餐、午餐和晚餐时吃通心粉和奶酪。
直接把需求抛给搜索框,Google Search 就能还给你一份按照要求,且合理安排的全新一周食谱。
图/Google I/O
而且,你还可以随时改变条件和细节,搜索的结果也会根据最新的提示实时更新。
如果说上述功能,我们已经在其他公司的产品中见过,甚至用过,那 Ask with Video ,一定会给你一些惊喜。
生活当中有很多物件,都有着各自的专属名称,有些器械出现一些小问题时,也都有着对应的修理方式。但很多时候只有专业人士才能叫得出,也只有他们能“对症下药”。
现在通过 Google Search 的 Ask with Video,每个人都能被称为专家,它相当于一本装在手机里的百科全书。
图/Google I/O
唱片的零部件不起作用了不知道从何下手,相机的快门突然失灵……以前可能要大费周折地寄回厂家售后,但现在用 Google 设备的镜头拍下问题所在,Google Search 就能根据你所遇到的问题初步诊断,一些小故障还能当场给出解决方案。
在发布会的实时演示里,AI 还把整个修理步骤一一列出,按照屏幕上的指示,演示者很快就能解决小麻烦。
图/Google I/O
这个功能,是通过 AI 逐帧分解视频,把每一帧的关键信息导入 Gemini 的长触点窗口挨个分析,并梳理网络中相关的文章、论坛、视频等,从中找到见解,以此实现了 Ask with Video 的智能建议。
比起传统的文字输入,视频最大的好处在于,我们和 AI 的交互过程变得更加直观,用“这里”“这个”等模糊的词语,也能使大模型知道我们指代的到底是什么。
图/Google I/O
Google 称,这些最新的 AI 功能,将会在未来几周内于实验室功能推出,这也意味着更强大的 Google Search 离落地已经不远了。
后续版本中,它甚至还将能基于页面中视频的自动字幕来寻找答案,不知道会不会抢了那些“1 分钟看完 XX 电影”博主的饭碗。
图·歌·片,瞄着 OpenAI 打
如果说前两天的 GPT-4o 是 AI 再一次给世界带来了一点震撼,那昨晚 Google 官宣的 Project Astra 则是震撼的延续。
Project Astra 是 GoogleMind 的原型——一个通用人工智能助手。
图/Google I/O
和 GPT-4o 的使用效果类似,用户可以通过它和 AI 实时对话,以及视频聊天。
发布会的演示可以很好地表现这个新功能,工作人员在演示视频中将手机镜头对准身边的物品,并向 Project Astra 提出一些疑问,它几乎能做到零延时准确回答。
例如 Project Astra 能说出音响上半部分的是高音喇叭,对电脑屏幕上显示的代码也能轻松识别其具体作用。
Google 称:“我们的新项目专注于构建一个未来的人工智能助手,它可以在日常生活中真正提供帮助。”
基于更强大的 AI 性能,Google 在 I/O 上还宣布了另外三个实用功能,它们分别在“图像”“音乐”“视频”领域,体现着先进技术的“未来感”。
Imagen 3 是 Google 发布的最新的图像生成模型。
图/Google I/O
它可以更加理解我们的提示词,并以此创建更加逼真的图像。
发布会上展示的“狼”的生成图片,就是 Imagen 3 在一段叙述中,准确提取了 8 个细节信息,并且在图片中都有体现。
图/Google I/O
不难发现,生成图片不仅细节准确,而且十分逼真。
Imagen 3 还能应对一些更加抽象的图片创作,例如根据“彩虹色”“羽毛组成的 light”“黑色背景”的提示,生成的创意图片。
图/Google I/O
就像是它很清楚你想要什么。
发言人甚至在发布会上开玩笑式地炫耀:“你可以用它来数别人脸上的胡须。”
在音乐生成方面,Google 也有了新的突破。
Music AI Sandbox 是最新推出的音乐生成模型,Google 这次在 I/O 现场还请来了 Marc Rebillet 坐镇分享。
图/Google I/O
根据艺人创作的一小段音乐 demo,Music AI Sandbox 能在此基础上拓展延长,还可以进一步按照用户输入的提示词,如音乐风格和种类等,进行乐曲的二度创作。
Google 称,它们和 YouTube 一起构建了 Music AI Sandbox:“这是一套专业的 AI 音乐工具,可以从头开始创建新的乐器部分,在轨道之间转换风格等,以帮助我们设计和测试它们。”
另一个实用模型名为 Veo,专注于生成视频。
图/Google I/O
用户只需输入相关的文本、图像或视频提示,Veo 就能创建高质量的 1080p 规格的视频,时长也达到了 60 秒之久。
它能以不同的视觉和电影风格捕捉指令中的详细信息。
图/Google I/O
例如,我们可以在提示中输入事物、横向或延时的航拍照片,并使用其他提示进一步编辑视频。
一直以来,视频生成 AI “只在理论上成立”,其实有诸多阻碍,其中走向“能用”的最大门槛是:视频生成时间只有短短几秒,一般只能在一两个动作里反复横跳。
图/Google I/O
所以 Sora 发布之初才会引起广泛的讨论,而从昨晚开始,Google 的 Veo 也成了大家重点关注的对象,从照片写实主义到超现实主义和动画,大部分的影视风格,它都能处理。
除了 Project Astra 以外,Google 还为我们提供了一个可私人定制的 Gemini ——Gems。
Google 表示,它能在保留指定特征的情况下完成任务,成为千人千面的私人助手,用户可以通过调整定位,使其成为瑜伽好友、虚拟的流行人物、健身伙伴、创意写作指导甚至是微积分导师等,都不在话下。
图/Google I/O
Gemini 狂卷长文本,Gemini 家族再添新成员
Gemini 项目自曝光以来,一直备受关注。起初也曾存在一定争议,但后来也凭借自身实力挽回了口碑,而今也越来越成熟。
据皮查伊介绍,目前有超过 150 万开发人员使用 Gemini 模型,用户数量已经达到 20 亿,如今皮查伊再提“Gemini 时代”,目标是将其集成到所有产品中,为用户带来全新体验,也为创造者、开发者、创业公司创造新的机会。
图/Google I/O
目前最新的 Gemini 1.5 Pro 支持 100 万 token 文本量,今年晚些时候据称这个数字将会达到 200 万,能够同时处理 2 小时的视频、22 小时的音频、超过 60000 行代码或超过 140 万个单词。
此外,大会还宣布了基于 Gemini 1.5 Pro 的 Gemini Advanced,据称它可以处理“多个大型文档,总计最多 1500 页,或汇总 100 封电子邮件”,还支持 35 多种语言和 150 多个国家 / 地区。
不得不说,在文本量方面,Gemini 确实很卷,朝着“将任何输入转为任何输出”的目标迈出了一大步。
安全永远是重中之重
自 AI 诞生之初以来,关于如何辨别 AI 生成内容的争论就一直没有停止。Google 的对策是通过 SynthID,为 AI 生成的图像和音频添加不可见的水印,使其更易于区分。
未来 Google 将会把这一范围推广到文本及视频中,并在接下来的几个月里,通过更新生成式 AI 工具包、开源 SynthID 文本水印,帮助更多开发人员更轻松地负责任地构建 AI。
图/Google I/O
Gemini 融入其中后,Android 会在通话过程中,检测到可疑活动时发出警告,例如被要求提供社会安全号码和银行信息,属于是直接把“反诈中心”装手机上了。
还有无障碍功能 TalkBack 也将通过 Gemini Nano 增强,图像描述将更加清晰和丰富,帮助视力不佳的用户通过语音反馈更好地操作手机,体现出 Google 一贯的人文关怀。
图/Google I/O
而对于 Google 昨晚的表现,英伟达 NVIDIA 研究经理 Jim Fan 的评价:十分中肯。
Google 新发布的模型似乎是多模态输入,但不是多模态输出的 Imagen3 和 Music AI Sandbox 仍然作为独立组件与 Gemini 分离,但将所有模态 I/O 原生合并是不可避免的未来。
它可以执行任务,如“使用更机器人化的声音”“编辑这幅图像”“生成一致的漫画条带”。
而且还不会在模态边界上丢失信息,例如情感和背景声音,全新模型打开了新的上下文能力,用户也能通过少量示例教导模型,并以新颖的方式结合不同的意义。
GPT-4o 并不完美,但它正确地掌握了形式因素,用安德烈的 LLM 视为操作系统的比喻来说:我们需要模型本地支持尽可能多的文件扩展名。
Google 做对了一件事:他们终于努力将人工智能整合到搜索框中。
Gemini 不必是最好的那一个,但却可以成为最广泛使用的一个。
本文来自微信公众号:APPSO (ID:appsolution),作者:凡博、王萌