Anthropic刚拿到天价融资，OpenAI就打了一巴掌回去

2023年9月26日 13:13 • 未来科技

本以为这笔亚马逊迄今为止在生成式人工智能领域的最大投资已经足够吸睛，谁料4小时后，OpenAI就紧跟着稳准狠地丢出一枚更加劲爆的重磅炸弹：发文宣布正逐步为ChatGPT推出新的语音和图像功能，允许用户与。

多模态新模型始于2022，OpenAI早就“遥遥领先”

今天放出的ChatGPT-4语音和图像更新的模型，官方版本叫GPT-4V(ision)。

一直处在热度顶端，从来不缺新话题的AI圈，今天又出大事了。

美西凌晨12点，人工智能初创公司Anthropic在官推透露亚马逊将对其进行最多40亿美元战略投资。根据双方达成的合作协议，AWS将成为Anthropic技术研究、模型开发等关键任务的主要云服务提供商，为Anthropic团队提供AWS Trainium和Inferentia芯片来构建、训练和部署其未来基础模型。作为相应的回报，Anthropic承诺，将为亚马逊托管服务Bedrock提供“增强型支持”，为全球各地的AWS客户和亚马逊开发人员开放其基础模型使用权和抢先访问模型定制及微调的独特功能。

本以为这笔亚马逊迄今为止在生成式人工智能领域的最大投资已经足够吸睛，谁料4小时后，OpenAI就紧跟着稳准狠地丢出一枚更加劲爆的重磅炸弹：发文宣布正逐步为ChatGPT推出新的语音和图像功能，允许用户与 ChatGPT 进行语音直接对话或展示正在讨论的内容。简言之，就是ChatGPT会看、听、说了。

消息一出，评论区彻底沸腾了。网友激动表示，想到你快，没想到你这么快！被“Open AI正在彻底革新世界”征服的同时，也感慨“又有多少创业公司的饭碗要被抢了”。

两者相比之下，Anthropic的重磅融资新闻，妥妥被OpenAI盖过了风头。在人工智能多模态交互赛道上，OpenAI再一次跑在了前头。

拍张冰箱照片，告诉你今晚吃啥

根据OpenAI官方博文，这次更新的主要内容有两点：基于图片的对话和实时语音对话。

先说说最让人惊叹的图片聊天功能：当你下班回到家，又一次为晚餐吃什么而发愁时，只需要拍下冰箱和食品储藏室的照片给ChatGPT，它就能为你推荐食谱，并在一步一步问答中讲解做法；晚餐后，可以通过拍照和圈出问题集，让ChatGPT帮孩子辅导数学难题；在旅行中更是相当于带了一位专属导游，随手拍下一个地标照片发给ChatGPT，它就能讲解景点的有趣之处。

在官方给出的视频例子里，拍了一张自行车照片给ChatGPT，询问它如何调低车座：

ChatGPT回答调低座位拢共分五步，接着给出详细解答，并表示如果手边有工具可以发给它看，以便提供进一步的指导。

用户接着拍下一张自行车零部件的局部照片，用官方绘图工具圈出示意问这是不是快拆杆？ChatGPT说你这是螺栓，需要找一个六角形扳手。

于是用户上传了工具箱和说明书照片问道：“我有你说的这个工具吗？”ChatGPT迅速识别出来，并准确提示用户工具位置，需要选择的尺寸和使用方法。

除此之外，OpenAI还推出了语音聊天功能。用户可以与ChatGPT实时语音对话，比如随便想一个角色，让它用这个当主角给家里的小孩讲睡前故事（点开下面视频听故事）；或者吃着饭忽然吵得不可开交时，把ChatGPT叫出来参与评判，解决争论。

这项语音功能由一款新的文本转语音模型提供支持，能够仅仅通过文本和几秒钟的样本语音生成类似人类的音频。OpenAI与专业的声音演员合作，为每个声音创建了模型，用户可以从5种不同的声音中挑选自己喜欢的。内置的开源语音识别系统还可以将用户的口语转录成文本。

OpenAI表示，这两项功能将在接下来的两周内向ChatGPT Plus和企业用户开放。其中语音功能将在iOS和Android上推出（在设置中选择加入），图像功能将在所有平台上提供。

多模态新模型始于2022，OpenAI早就“遥遥领先”

今天放出的ChatGPT-4语音和图像更新的模型，官方版本叫GPT-4V(ision)。根据OpenAI释出的报告显示，多模态新模型GPT-4V其实早在去年就已经训练好了，只是出于人工智能安全和合规考量才等到现在才放出来。

在报告中，OpenAI解释道：其最新开发的GPT-4V是一款具有视觉能力的语言模型，具备分析用户提供的图像输入并指示GPT-4进行分析的功能。这个模型融合了文本和视觉两种模式，拓展了过去仅限于文本的系统的影响范围和潜在风险。

为确保安全性和效用，它采用逐步部署策略，首先提供给一小部分用户试用，以便收集反馈和识别潜在风险，如系统误报或人脸识别的隐私问题等。

OpenAI进行了全面的综合评估，包括聘请外部专家进行伦理测试和建立性能度量标准。评估确实发现了一些局限性，涉及到科学、医学建议的准确性、刻板印象、无根据的推断等。但为缓解这些问题，OpenAI已经采取了一系列措施，例如增加安全训练数据以拒绝不当请求，并改进系统以应对文字和图像的挑战。

OpenAI下一步将继续关注是否允许模型执行某些行为，提高全球用户的语言和图像识别能力，以及提高人像处理的精确度。

回想去年11月，就是OpenAI发布ChatGPT带来无与伦比的想象力，开启了人工智能新时代，人类社会从此与过去不同。可也就是在绝大多数人还不知道大模型为何物的那时，OpenAI已经开始训练融合视觉与语言的多模态AI系统，并负责任地进行安全评估和风险控制。不得不说在生成式人工智能的疆土上，OpenAI绝对是一骑绝尘，“遥遥领先”了。

百模大战背后的AI生态之争，奥特曼永远“虽迟但到”

实际上，回看今天AI领域的两个重磅消息，无论是亚马逊阔绰出手40亿美元与开发“ChatGPT最强竞品”Claude2 的Anthropic组建联盟，还是背靠微软支持的OpenAI高调官宣具备视觉和语音功能的多模态新模型GPT-4V，又或是谷歌举全军之力押注、誓要成为全球最强人工智能模型的Gemini——这场科技巨头军备竞赛与AI公司百模大战的背后，其实是奋不顾身的AI生态之争。

而正处于AI生态浪潮之巅的多模态领域，可以跨越多种感官和数据源。通过声音、肢体语言、信息载体和环境等各种通道，充分模拟人与人之间的交互方式，为计算机提供无限接近于人类感知的场景，堪称计算机视觉和交互式人工智能的终极融合。

可以说，谁最先在多模态大模型上完成布局，谁就抢占了当前AI生态的最有利先机。不仅可以依托强大的技术平台吸引庞大的用户群体、形成积极的开发者社区，从而实现更多应用程序的落地转化，还能联动广大的云计算、数据管理等基础设施提供商，获得更乐观的资本注入，在市场中扮演不可或缺的关键角色，进而推动整个AI生态系统的创新。

作为OpenAI一号领导者，Sam Altman本人商业嗅觉的超高灵敏度，也成为使OpenAI始终保持生成式人工智能领先玩家的因素之一。

今年5月，他在美国国会有史以来最引人注目的AI主题的听证会上，不仅没有被刁难，反而备受礼遇，成为全场的核心话事人，呼吁对AI进行监管，两天后旋即发布ChatGPT手机端APP；8月在微软发布必应聊天企业版后，推出ChatGPT企业版与其最大的投资者兼合作伙伴展开直接竞争；又在谷歌宣布自己的AI“大杀器”Gemini后，用DALL·E 3碾压级的图像处理能力把业界惊艳了一把。可以说在每个GenAI圈热点事件之后，都有Sam Altman带着OpenAI紧追不舍的“虽迟但到”，带来一波更大的高潮。

如今，在多模态模型应用普及市场上，ChatGPT又不负众望，打赢了一次小战斗。

有网友已经在期待更多天马行空的想法变成现实。比如，拍下每顿饭的照片让ChatGPT计算热量摄取，直接把调自行车座位的说明生成教学视频，接入DALL·E 3等等。还有网友调侃道：“离我的AI女友又近了一步”。当然，如果ChatGPT能看着照片回答出“Sam Altman蓝色背包里都装了什么”就更好了。毕竟在OpenAI的想象国度里，永远都蕴藏着让你意想不到的更大惊喜。

本文来自微信公众号：硅星人Pro（ID：gh_c0bb185caa8d），作者：Jessica

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

滴滴保障车队助力周杰伦太原演唱会太原出行需求“热”过端午

Previous 2023年9月26日 13:03

几乎放弃电商后，名创优品是假繁荣还是真硬气？

Next 2023年9月26日 13:55

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

Anthropic刚拿到天价融资，OpenAI就打了一巴掌回去

相关推荐