ChatGPT 开始入侵物理世界？

2023年9月26日 22:17 • 未来科技

OpenAI

该功能推出后，用户可以在应用的设置中选择语音对话，然后从“Juniper”“Sky”“Cove”“Ember”和“Breeze”等五种不同的合成声音中选择一个，说出他们想要的内容，机器人就会使用所选的语音提供答案。

这些模型将其语言推理技能应用于各种图像，如照片、截图和同时包含文本和图像的文档，人们只需点击一张图片，将其添加到聊天中，并提出潜在的问题，ChatGPT。

OpenAI，又悄咪咪地放大招了。

当地时间 9 月 25 日，OpenAI 在官网更新博客，宣布 ChatGPT 已经具备看、听、说的能力。这是 GPT-4 大型语言模型推出以来最大的一次功能更新。

从官方放出的应用案例来看，通过手机摄像头和麦克风，ChatGPT 现在已经能帮助人们解决实际问题。例如用手机拍一下共享单车的照片，并且询问人工智能助手如何调节座椅，ChatGPT 就可以看懂图片，并且给出相应步骤。

随着技术的快速迭代，生成式 AI 竞赛正在进入了一个全新的阶段——多模态之争。在这个阶段，各大科技公司纷纷推出了一系列新产品和功能，通过人工智能技术打破传统搜索引擎和聊天机器人的局限性的同时，也为用户带来更加丰富和精准的交互体验。

那么，“升级”了的 ChatGPT，是否能成为“贾维斯”一样的 AI 助理，帮助人们打点生活了？而 OpenAI 又是怎么做到的？

一、ChatGPT长了眼睛和嘴巴

生成式 AI 竞赛的下一个阶段正在来临——多模态之争。

最近，Meta 推出了 AudioCraft，用于通过 AI 生成音乐；谷歌 Bard 和微软 Bing 的聊天体验也已部署了多模态功能；亚马逊也在借助 LLM 的力量来增强其 Alexa 数字助理（为 Echo 系列智能设备提供支持）的功能，9 月 25 日刚刚宣布斥资 40 亿美元投资 OpenAI 的竞争对手 Anthropic，后者是 Claude 2 聊天机器人的制造商；苹果也在试验通过 AI 生成语音，即 Personal Voice。

而在上周发布支持文本和排版生成的最新图像生成模型 DALL-E 3 之后，当地时间周一晚，OpenAI 发布了《ChatGPT 现在能看、能听、能说了》的公告，宣布对 ChatGPT 进行重大更新，使其 GPT-3.5 和 GPT-4 人工智能模型能够分析图像，并作为文本对话的一部分对图像作出反应。

此外，ChatGPT 移动应用程序还将增加语音合成选项，与现有的语音识别功能搭配使用时，将实现与人工智能助手的完全语言对话。

根据官网，ChatGPT 现在已经具备了如下功能：

1. 语音功能

OpenAI 在公告中称语音功能由一个新的文本转语音模型（text to speech）驱动，只需要文本和几秒的语音样本就可以生成类似人声的音频。一方面，OpenAI 与专业配音演员合作创建了语音条，另一方面，OpenAI 还使用了自己开源的语音识别系统 Whisper，可以将用户的语音转录为文字。

ChatGPT 已经有了语音交互能力｜OpenAI

该功能推出后，用户可以在应用的设置中选择语音对话，然后从“Juniper”“Sky”“Cove”“Ember”和“Breeze”等五种不同的合成声音中选择一个，说出他们想要的内容，机器人就会使用所选的语音提供答案。例如，人们可以询问睡前故事，或者就餐桌上正在进行的谈话提出问题。

不过，语音对话功能的使用可能面临有一些限制。OpenAI 表示，该模型在转录英文文本方面表现出色，但在一些其他语言，特别是使用非罗马字母的语言中表现不佳。因此，建议非英语用户使用 ChatGPT 来进行此类用途时要慎重。

2. 图像理解

OpenAI 表示，ChatGPT 中的新图像识别功能允许用户上传一张或多张图像，使用 GPT-3.5 或 GPT-4 模型进行对话。

这些模型将其语言推理技能应用于各种图像，如照片、截图和同时包含文本和图像的文档，人们只需点击一张图片，将其添加到聊天中，并提出潜在的问题，ChatGPT 就会根据所附文本分析图片，并给出答案。

它甚至可以围绕该主题进行前后对话。按照 OpenAI 的说法，用户可以上传某物的图片并询问 ChatGPT 相关问题——比如在旅行时拍一张地标的照片，让 ChatGPT 来讲述景点的有趣之处；拍下冰箱和食品储藏室的照片，找出晚餐要吃什么（还可以问一些后续问题，以获得进一步的食谱）。

在官方提供的示例中，一张自行车的照片上传到 ChatGPT 界面，之后询问后者如何将座位调低。ChatGPT 首先询问了自行车的型号，因为座位的调整方式因车型而异。它详细解释了不同车型可能采用的快拆杆或螺栓的区别，并提供了相应的步骤。

然后，官方制造了一点混淆，拍摄了一张螺栓的照片，并在图中用官方的画图工具突出显示，试图让 ChatGPT 分辨是螺栓还是快拆杆。ChatGPT 很快指出图中所示的是螺栓，并建议用户寻找内六角扳手来解决问题。

接着，官方拍摄了一张工具箱的照片，向 ChatGPT 询问到底是哪一个扳手。ChatGPT 再次表现准确识别出所需的扳手，并清晰地指导用户选择正确的尺寸。这个示例清楚地展示了 ChatGPT 在解决实际问题时的实用性和智能响应。

在去年 3 月 GPT-4 发布时，OpenAI 就已展示了该模型解析文本和图像的初步能力，很快，这些能力将成为 ChatGPT 使用中更常见的存在。

OpenAI 将在未来两周时间里向 Plus 和企业用户推出上述功能。用户可以在 iOS 和 Android 使用 ChatGPT 的语音合成功能，图像识别功能则在网页和 App 端均可用。

二、能力越大，责任越大

在 ChatGPT 发布近一年来，OpenAI 对其底层模型和界面进行了多次更新。而任何生成式 AI 的进步都需要考虑严肃的伦理和隐私问题。

OpenAI 在公告中声称其目标是开发安全且有益的通用人工智能，“我们相信，逐步提供我们的工具，可以让我们随着时间的推移不断改进和完善风险缓解措施，同时也让大家为未来更强大的系统做好准备。对于涉及语音和视觉的高级模型来说，这一策略越来越重要。”

毕竟，新语音技术能够仅从几秒的真实语音中创造逼真的合成语音，这为创造性应用打开大门的同时，也带来了新的风险，比如恶意冒充公众人物或进行诈骗等。

为降低音频深度伪造的风险，OpenAI 表示它已将语音合成功能的使用范围限制在语音聊天，和某些已获批准的合作伙伴关系中。其中包括与流媒体公司 Spotify 的合作——Spotify 正在使用其背后的技术为平台上的播客翻译不同语言的内容。Spotify 个性化副总裁齐亚德-苏丹（Ziad Sultan）在一份新闻稿中说：“通过与创作者本人的声音相匹配，语音翻译让世界各地的听众能够以前所未有的真实方式发现新的播客，并从中获得灵感。”

同样，为了避免图像识别带来的隐私和准确性问题，OpenAI 还限制了机器人对输入图像中出现的人进行分析和直接陈述的能力，其表示已经“采取了技术措施，以限制 ChatGPT 分析和直接陈述个人信息的能力，系统还是应当尊重个人隐私”，但是真正的恶意利用情况还是要在它面向公众推出后才能知道。

这次 ChatGPT 推出的语音交互和图像识别功能，为聊天机器人带来了更强的实用性，让它们从简单的文本处理工具更贴近真实生活。

同时，这似乎也预示着未来 AI 系统的发展方向——不仅要理解抽象的文字世界，还要能感知复杂的语音和图像信息，甚至是物理世界，从而真正进阶达到人机交互的境界。

本文来自微信公众号：极客公园（ID：geekpark），作者：连冉，编辑：靖宇

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

再度碰瓷苹果，辣条品牌卫龙开了一场显眼包发布会

Previous 2023年9月26日 21:10

理解智能时代

Next 2023年9月27日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

ChatGPT 开始入侵物理世界？

相关推荐