一场科技竞赛正在美国硅谷上演。
5月15日,谷歌举办了2024年I/O开发者大会,AI是全场的主题,谷歌CEO桑达尔·皮查伊和他的同事们发布了Gemini 1.5 Pro的新版本,在100万Tokens的窗口能力上,进一步扩大至200万Tokens,它们的最终目标是无限上下文。
谷歌还展示了新的搜索产品,比如从本周开始,谷歌搜索引擎将在美国推出“AI概览”(AI Overviews)的功能,搜索引擎会直接归纳总结搜索结果。此外,谷歌还推出了新的TPU,第六代TPU芯片Trillium,较上一代芯片的算力表现翻4.7倍。
就在这场发布会前一天,OpenAI举行了春季发布会,发布最新GPT-4o多模态大模型,相较于GPT-4 Trubo速度更快、价格也更便宜。接下来的一个月里,硅谷还将迎来两家科技巨头的重磅大会——5月21日左右,微软将举行Build年度开发者大会;6月10日左右,苹果将举办全球开发者大会。一场有关AI的大比拼在大洋彼岸开赛。
伴随着OpenAI的崛起,以及谷歌在AR眼镜等失利,外界一度评价谷歌已经成为一家为“赚钱”打造的机器,失去了创新激情。
不过,谷歌仍然拥有谷歌搜索、YouTube、云服务、Gmail、Android以及自动驾驶Waymo等业务,仅YouTube就有20亿月活用户,Android也拥有20亿月活用户,可以说,谷歌掌握着全球最多的用户场景、数据以及设备接口。
谷歌发布更新产品后,谷歌-C股价微涨0.6%,收盘价为171.93美元,市值2.12万亿美元,股价较2024年开年上涨了23%。
在刚刚过去的财季,谷歌展现出强有力的竞争力。2024年第一季度,谷歌实现营收805.39亿美元,同比增长15%,非美国通用会计准则下净利润为236.62亿美元,同比增长57%。
一
大会一开场,皮查伊就介绍说,现在已经有超过150万开发者正在使用谷歌的原生多模态大模型Gemini。Gemini在2023年12月上线,它被认为超过了GPT-4。
皮查伊宣布,Gemini 1.5 Pro向全球所有开发者开放,并支持200万Tokens的Gemini 1.5 Pro模型的预览,他们的目标是“无限上下文”。
此次开发者大会,谷歌着墨最多的是搜索,这是谷歌的起家业务,现在谷歌要重新定义搜索,它要把搜索做成多轮对话的推理,用户只需要问就可以了。
皮查伊以“重新定义搜索”的架势,连续上线多款基于Gemini的产品,比如总结谷歌搜索引擎结果的“AI概览”功能,支持用户存储图片的AI搜索Ask Photos。
以练瑜伽为例,谷歌会帮用户找到排名更靠前的工作室,并介绍他们的服务,可以看到每个门店的距离。谷歌搜索会把更大的问题分解成各个部分的问题,比如排名、评论、营业时间以及其他更多的研究。
但“重新定义搜索”的最大主动权可能不在谷歌手里,而在OpenAI这边。今年年初有传言说,OpenAI计划上线AI搜索业务,不过在5月14日OpenAI的发布会上,并没有展现该业务,这可能与算力成本有关系。
成熟大公司对待创新公司的崛起仍然毫无办法。对标OpenAI,谷歌仍在努力显示自己的存在。
在此次发布会上,谷歌还展示了一个名为Astra的项目,这是谷歌开发的通用人工助理,在演示视频中,Astra通过手机摄像头能识别真实环境中的物体,实现了能看、能说、能听。这与前一天OpenAI上线的GPT-4o功能类似,都实现了人机交互的新形式。但谷歌似乎不满足于此,Astra更强调指向人、机器与现实世界的三重交互。
大模型最大的挑战是解决响应时间的问题。谷歌介绍说,它们在Gemini模型的基础上,开发了通过连续编码视频帧,更快地处理信息的代理,同时,将视频和语音输入组合到事件的时间线中,捕捉并有效记忆。这些代理可以更好地理解用户所处的环境,并在对话中快速响应,使交互的速度和质量更加自然。
Gemini也将支持语音实时交互,同时今年晚些时候还将上线实时视频交互功能。未来几个月内,谷歌也将推出类似于GPTs的自定义AI助手Gems。它将能与“谷歌全家桶”进行交互。
“Gems易于创建,它们可以充当你的瑜伽闺蜜、你的私人副主厨、聪明的微积分导师、代码的同行评审员。”谷歌的相关负责人说。
谷歌发布会上还宣布了安卓生态的AI新进展,今年晚些时候,能够在本地运行的多模态Gemini Nano模型将登陆Pixel手机,它更智能,更注重隐私保护,比如,如果用户接到诈骗电话,将会提醒用户。
如果没有OpenAI,上述谷歌的创新技术可以称得上可圈可点,但奈何“既生瑜,何生亮”。
二
在发布会上,谷歌只提到一家科技大公司,那就是英伟达。皮查伊发布了第六代TPU(张量处理器,谷歌为机器学习定制的专用芯片)芯片Trillium,较上一代芯片的算力表现翻4.7倍,TPU是谷歌自己研发的GPU芯片。
同时,皮查伊说,谷歌云将在2025年初,用上英伟达的最新Blackwell架构GPU。在过去数年,谷歌投资了200万英里的地面和海底光纤。
今年3月,英伟达发布了基于“Blackwell”架构的B100芯片与B200 GPU加速器,英伟达创始人黄仁勋说,这是迄今为止,英伟达最强大的GPU芯片,在生产出首批服务器之后,黄仁勋将一台服务器送给了OpenAI。
GPU在过去一年多时间成为堪比黄金的硬通货,各大科技公司不得不排队数月来等货,这让黄仁勋成为硅谷最受欢迎的CEO,人们争相排队和他见面,英伟达也是所有科技公司的合作伙伴。
而在GPU大热的背后,硅谷正在进入新一轮的科技竞赛。
2022年底,OpenAI发布ChatGPT开始,整个硅谷进入亢奋状态,这里甚至诞生了AI一条街,五六个人就可以组建一个公司,依靠一个想法获得融资,比如斯坦福博士生郭文景和同学创办的Pika,短短数月间就完成5500万美元融资,并推出了视频生成器Pika1.0。
科技巨头之间的关系变得异常紧张,主要是AI重构了边界,大公司重新变得野心勃勃:
微软重新盯上了搜索,扶持Bing发展;Meta向第三方硬件制造商开放VR头显操作系统Meta Horizon OS,进一步蚕食苹果生态;为应对OpenAI的崛起,苹果不得不放弃数十年的造车计划,集中资源搞AI。
进化以群体聚集的形式在硅谷上演,大公司你追我赶,它们之间的合纵连横也让AI竞赛变得复杂。
苹果公司计划和OpenAI合作,将OpenAI的技术引入iPhone之中,但微软是OpenAI的最大出资方;谷歌正和OpenAI酣战,支持其开源系统Android的AI进化,以展开和苹果iOS系统之间的竞争。
席卷全球的这次科技竞赛浪潮,颇有点20世纪七八十年代硅谷的意味。那时,原生技术层出不穷,1968年,英特尔成立;1969年,AMD成立;1976年,乔布斯创办苹果电脑;1977年,甲骨文成立;1984年,思科公司成立。
只不过,50年前,是芯片等硬件造就了创业潮,创造了财富;现在,AI以及产品化则是最新的动力。
在AI时代,中国互联网同样也迎来了新的发展机会,但正如大部分中国AI创业者所说,虽然一家又一家公司会在这次浪潮中转型甚至退场,但是千万不要低估中国创业者的生命力。
本文来自微信公众号:中国企业家杂志 (ID:iceo-com-cn),作者:闫俊文,编辑:李薇