GPT-5到来前夜,中美这两个生成式AI强国各自进入了同质化竞争。
5月21日,阿里云宣布旗下9款大模型降价。其中,对标GPT-4的主力模型通义千问Long的API输入价格从20元/百万tokens降至0.5元/百万tokens,降幅达97.5%,这意味着花1元钱就能够向这个模型输入约150万字的内容,相当于1.5本《红楼梦》,而花同样的钱只能向GPT-4输入不到4000字,甚至不够一篇短篇小说。通义千问Long并不是阿里云最强大的模型,不过比它更强大的通义千问Max模型也降价了67%。
阿里云降价的消息发布不到4个小时,百度立刻作出了反应,宣布文心Speed和文心Lite两款模型免费,且同样立即生效。文心Speed和文心Lite都是百度今年3月才发布的最新模型,它们都属于轻量级模型,以响应速度见长。
这场价格战最早由一个名叫DeepSeek(深度求索)的初创大模型公司于5月6日发起。这家公司此前几乎不在投资人和开发者视野内,它其实是由一家私募基金幻方量化低调孵化出来的。不过当它将其对标GPT-4的模型DeepSeek-V2的输入价格定为1元/百万tokens,第一张多米诺骨牌倒下了,智谱AI的GLM-3-Turbo模型、字节跳动的豆包大模型,以及阿里巴巴的通义系列模型都将百万tokens的输入价格从100元左右降至了1元左右。
这场来自大多数人视野外的公司挑起的价格战表明,中国在大语言模型(Large Language Models,LLMs)领域的产品正变得越来越同质化。
2023年年初,不少创业者和投资人有两个共识:其一,只要努力追赶,中国大模型公司可以在差不多一年左右的时间里赶上GPT-3.5的水平;其二,生成式AI这项技术并非那么容易掌握,因此它不会变成上一轮AI浪潮中的图像识别那样的技术——几乎每家科技公司都会。比如,百川智能创始人王小川就曾对“新皮层”称,生成式AI更接近于搜索引擎级别的技术,只有少数公司能够跑出来,而不是图像识别级别。
如今,第一个共识变成了现实,第二个则几乎被推翻。
降价的故事在美国也同样发生了。5月13日发布GPT-4o的同时,OpenAI也将新模型的API价格调低了50%,每百万tokens的输入价格降至5美元(约合35元人民币)。不过,这一降价行为更多是为了多模态和端侧之战。
5月13日和14日,OpenAI和Google相隔24小时前后脚地发布了各自的最新多模态模型和产品——GPT-4o和Project Astra。两个模型都能实时地通过摄像头看到和理解外部世界,并与人随时口语交流。其中,GPT-4o还能灵敏地觉察你的语气,并随时根据要求变换音调,甚至以歌剧式的音色唱出一个睡前故事。重要的是,这种交互的延迟已经下降到了320毫秒(即0.32秒),人耳几乎察觉不到。
紧接着,微软也在Google发布会结束不到一周举办了自己的发布会,直接将GPT-4o加载到其笔记本电脑中,推出AI PC,这款电脑号称具有“Recall”(回忆)功能,能够通过不断截取用户的电脑屏幕来记住和理解用户在电脑上做的一切。这个功能不是什么新玩意,2020年,曾在Google担任产品经理的Dan Siroker就开发了一个叫Rewind(倒带)的应用,它会以2秒/帧的频率截屏用户在Mac和iPhone上看到的所有内容,用户可以事后通过AI搜索这些内容。这家公司目前估值3.5亿美元。
虽然形态不同,GPT-4o、Project Astra和Recall的目标其实是同一个,用笔记软件Evernote的创始人斯捷潘·帕奇科夫(Stepan Pachikov)的话说,它们都想成为用户的“第二大脑”——看用户所看、听用户所听、和用户同步思考,然后在用户需要交流时聊上几句。
这种设备早在1945年就有一位叫万尼瓦尔·布什(Vannevar Bush)的美国工程师构想过,他设想了一种比桌面电脑更为激进的设备——Memex,它能被戴在额头上,通过微型相机与语音转文本机器来记录、构建个人知识库,事后人们还能浏览这个知识库。历史上,布什所构想的Memex从未被真正实现过。
现在是距离Memex被构建出来最为接近的时刻。如果GPT-4o、Project Astra能成功进入端侧设备,学习用户能接触到的一切信息——从设备内部到设备外部——就能创造出真正的个人助理,而非GPT、Gemini、Copilot那样的通用助理。
可能过不了多久,我们就会看到大量AI设备上市,形态种类大大超过移动互联网时代。Google已经在重新探索开发一款智能眼镜,以及将Project Astra植入其中的可能性。外界猜测,已于去年3月15日暂停销售的Google Glass项目可能重启。为笔记本电脑开发的“Recall”功能则表明微软也不甘落后。它们一个想要守住移动端,一个想要守住桌面端。
OpenAI还不曾开发硬件。不过,它也通过一则短视频展示了将GPT-4o加载到智能手机中后它如何为盲人导航的奇妙用途。
更低的计算价格对生成式AI应用大爆发是好事,但它是个必要条件,而非充分条件。一个降价的GPT-4o要比降价的GPT-3.5更能令应用市场繁荣。
本文来自微信公众号:新皮层NewNewThing(ID:gh_38b8653e0e0b),作者:吴洋洋,表格整理:杨秋秋,编辑:王杰夫