一直处在热度顶端,从来不缺新话题的AI圈,今天又出大事了。
美西凌晨12点,人工智能初创公司Anthropic在官推透露亚马逊将对其进行最多40亿美元战略投资。根据双方达成的合作协议,AWS将成为Anthropic技术研究、模型开发等关键任务的主要云服务提供商,为Anthropic团队提供AWS Trainium和Inferentia芯片来构建、训练和部署其未来基础模型。作为相应的回报,Anthropic承诺,将为亚马逊托管服务Bedrock提供“增强型支持”,为全球各地的AWS客户和亚马逊开发人员开放其基础模型使用权和抢先访问模型定制及微调的独特功能。
本以为这笔亚马逊迄今为止在生成式人工智能领域的最大投资已经足够吸睛,谁料4小时后,OpenAI就紧跟着稳准狠地丢出一枚更加劲爆的重磅炸弹:发文宣布正逐步为ChatGPT推出新的语音和图像功能,允许用户与 ChatGPT 进行语音直接对话或展示正在讨论的内容。简言之,就是ChatGPT会看、听、说了。
消息一出,评论区彻底沸腾了。网友激动表示,想到你快,没想到你这么快!被“Open AI正在彻底革新世界”征服的同时,也感慨“又有多少创业公司的饭碗要被抢了”。
两者相比之下,Anthropic的重磅融资新闻,妥妥被OpenAI盖过了风头。在人工智能多模态交互赛道上,OpenAI再一次跑在了前头。
拍张冰箱照片,告诉你今晚吃啥
根据OpenAI官方博文,这次更新的主要内容有两点:基于图片的对话和实时语音对话。
先说说最让人惊叹的图片聊天功能:当你下班回到家,又一次为晚餐吃什么而发愁时,只需要拍下冰箱和食品储藏室的照片给ChatGPT,它就能为你推荐食谱,并在一步一步问答中讲解做法;晚餐后,可以通过拍照和圈出问题集,让ChatGPT帮孩子辅导数学难题;在旅行中更是相当于带了一位专属导游,随手拍下一个地标照片发给ChatGPT,它就能讲解景点的有趣之处。
在官方给出的视频例子里,拍了一张自行车照片给ChatGPT,询问它如何调低车座:
ChatGPT回答调低座位拢共分五步,接着给出详细解答,并表示如果手边有工具可以发给它看,以便提供进一步的指导。
用户接着拍下一张自行车零部件的局部照片,用官方绘图工具圈出示意问这是不是快拆杆?ChatGPT说你这是螺栓,需要找一个六角形扳手。
于是用户上传了工具箱和说明书照片问道:“我有你说的这个工具吗?”ChatGPT迅速识别出来,并准确提示用户工具位置,需要选择的尺寸和使用方法。
除此之外,OpenAI还推出了语音聊天功能。用户可以与ChatGPT实时语音对话,比如随便想一个角色,让它用这个当主角给家里的小孩讲睡前故事(点开下面视频听故事);或者吃着饭忽然吵得不可开交时,把ChatGPT叫出来参与评判,解决争论。
这项语音功能由一款新的文本转语音模型提供支持,能够仅仅通过文本和几秒钟的样本语音生成类似人类的音频。OpenAI与专业的声音演员合作,为每个声音创建了模型,用户可以从5种不同的声音中挑选自己喜欢的。内置的开源语音识别系统还可以将用户的口语转录成文本。
OpenAI表示,这两项功能将在接下来的两周内向ChatGPT Plus和企业用户开放。其中语音功能将在iOS和Android上推出(在设置中选择加入),图像功能将在所有平台上提供。
多模态新模型始于2022,OpenAI早就“遥遥领先”
今天放出的ChatGPT-4语音和图像更新的模型,官方版本叫GPT-4V(ision)。根据OpenAI释出的报告显示,多模态新模型GPT-4V其实早在去年就已经训练好了,只是出于人工智能安全和合规考量才等到现在才放出来。
在报告中,OpenAI解释道:其最新开发的GPT-4V是一款具有视觉能力的语言模型,具备分析用户提供的图像输入并指示GPT-4进行分析的功能。这个模型融合了文本和视觉两种模式,拓展了过去仅限于文本的系统的影响范围和潜在风险。
为确保安全性和效用,它采用逐步部署策略,首先提供给一小部分用户试用,以便收集反馈和识别潜在风险,如系统误报或人脸识别的隐私问题等。
OpenAI进行了全面的综合评估,包括聘请外部专家进行伦理测试和建立性能度量标准。评估确实发现了一些局限性,涉及到科学、医学建议的准确性、刻板印象、无根据的推断等。但为缓解这些问题,OpenAI已经采取了一系列措施,例如增加安全训练数据以拒绝不当请求,并改进系统以应对文字和图像的挑战。
OpenAI下一步将继续关注是否允许模型执行某些行为,提高全球用户的语言和图像识别能力,以及提高人像处理的精确度。
回想去年11月,就是OpenAI发布ChatGPT带来无与伦比的想象力,开启了人工智能新时代,人类社会从此与过去不同。可也就是在绝大多数人还不知道大模型为何物的那时,OpenAI已经开始训练融合视觉与语言的多模态AI系统,并负责任地进行安全评估和风险控制。不得不说在生成式人工智能的疆土上,OpenAI绝对是一骑绝尘,“遥遥领先”了。
百模大战背后的AI生态之争 ,奥特曼永远“虽迟但到”
实际上,回看今天AI领域的两个重磅消息,无论是亚马逊阔绰出手40亿美元与开发“ChatGPT最强竞品”Claude2 的Anthropic组建联盟,还是背靠微软支持的OpenAI高调官宣具备视觉和语音功能的多模态新模型GPT-4V,又或是谷歌举全军之力押注、誓要成为全球最强人工智能模型的Gemini——这场科技巨头军备竞赛与AI公司百模大战的背后,其实是奋不顾身的AI生态之争。
而正处于AI生态浪潮之巅的多模态领域,可以跨越多种感官和数据源。通过声音、肢体语言、信息载体和环境等各种通道,充分模拟人与人之间的交互方式,为计算机提供无限接近于人类感知的场景,堪称计算机视觉和交互式人工智能的终极融合。
可以说,谁最先在多模态大模型上完成布局,谁就抢占了当前AI生态的最有利先机。不仅可以依托强大的技术平台吸引庞大的用户群体、形成积极的开发者社区,从而实现更多应用程序的落地转化,还能联动广大的云计算、数据管理等基础设施提供商,获得更乐观的资本注入,在市场中扮演不可或缺的关键角色,进而推动整个AI生态系统的创新。
作为OpenAI一号领导者,Sam Altman本人商业嗅觉的超高灵敏度,也成为使OpenAI始终保持生成式人工智能领先玩家的因素之一。
今年5月,他在美国国会有史以来最引人注目的AI主题的听证会上,不仅没有被刁难,反而备受礼遇,成为全场的核心话事人,呼吁对AI进行监管,两天后旋即发布ChatGPT手机端APP;8月在微软发布必应聊天企业版后,推出ChatGPT企业版与其最大的投资者兼合作伙伴展开直接竞争;又在谷歌宣布自己的AI“大杀器”Gemini后,用DALL·E 3碾压级的图像处理能力把业界惊艳了一把。可以说在每个GenAI圈热点事件之后,都有Sam Altman带着OpenAI紧追不舍的“虽迟但到”,带来一波更大的高潮。
如今,在多模态模型应用普及市场上,ChatGPT又不负众望,打赢了一次小战斗。
有网友已经在期待更多天马行空的想法变成现实。比如,拍下每顿饭的照片让ChatGPT计算热量摄取,直接把调自行车座位的说明生成教学视频,接入DALL·E 3等等。还有网友调侃道:“离我的AI女友又近了一步”。当然,如果ChatGPT能看着照片回答出“Sam Altman蓝色背包里都装了什么”就更好了。毕竟在OpenAI的想象国度里,永远都蕴藏着让你意想不到的更大惊喜。
本文来自微信公众号:硅星人Pro(ID:gh_c0bb185caa8d),作者:Jessica