OpenAI的神秘重大突破“Q*算法”究竟是什么？

2023年11月24日 13:12 • 未来科技

所谓贝尔曼方程，也被称为动态规划方程，是指数学家理查德·贝尔曼提出的用于解决复杂多阶段问题的公式，通过求解该方程可以找到最优值函数和最优策略。

运行算法的人（或计算机）可以输入一个目标函数，例如“旅行时间最短、成本最低、利润最大、效用最大”等。

根据天风证券分析师孔蓉的观察，OpenAI近期的招聘进程表明其在进一步增强强化学习系统的决策能力。

OpenAI近期持续引入强化学习和决策算法研究人员。

本文来自：华尔街见闻APP，作者：常嘉帅，原文标题：《内部人担忧“危机人类生存”：OpenAI的神秘重大突破“Q*算法”究竟是什么？》，题图来自：视觉中国

尽管OpenAI宫斗大戏告一段落，但仍留下了许多未解的谜题。其中最为关键的，就是现（前）CEO 奥特曼为何会被解雇。

OpenAI CTO Mira Murati此前在致员工的内部信件中提到了一个代号为“Q*”的项目。据她称，该项目为“董事会对奥特曼的一系列不满中的因素之一”。

据多家媒体猜测，Q*让OpenAI实现AGI的步伐大大提速，但奥特曼可能没有和董事会详细披露Q*的进展到底有多大，这也符合董事会在解雇奥特曼时所说的“在与董事会沟通时没有始终保持坦诚”。

就在被解雇之前，奥特曼还在公开活动中表示：

在OpenAI的历史上，我们已经取得了4次突破，最近一次是在过去的几周里。当我们把无知的面纱撕下，把发现的前沿向前推进时，我就在房间里。

所谓的第四次突破，指的可能就是Q*项目。

什么是 Q*？

什么是Q*？

Q*读作Q star，目前OpenAI内部没有任何关于Q*的详细信息流出。

据一些业内人士猜测，它可能是机器学习算法Q-Learning（Q学习）的同义词，也许是OpenAI借助Q学习算法打造的新模型的代号，也许是一个相关的项目名称。

根据天风证券分析师孔蓉的说法：

Q学习是一种基于强化学习的算法，用来在马尔科夫决策过程中求解最优控制问题。它的目标是通过学习最优策略，使智能体在未知环境中做出最佳选择。

Q学习依据贝尔曼方程更新状态-动作对应的Q值，逼近最优值函数。智能体通过与环境交互，观察到新的状态和奖励，来更新执行各个动作的Q值。

运行算法的人（或计算机）可以输入一个目标函数，例如“旅行时间最短、成本最低、利润最大、效用最大”等。然后，算法将决定采取何种最佳行动来实现预期结果。

简单来说，Q学习可以通过探索所有可能的路径，学习到通往预期奖励的最短路径（最短路线），通过试错找到更优化的路径，并随着时间的推移达到优化状态，每次都做出更好的决策。

据媒体报道，在奥特曼被解雇之前，OpenAI在内部对Q*进行了演示，显示Q*能够解决小学程度的数学问题。

虽然完成小学数学题听起来没什么出色之处，但科技博客PC Guide指出，OpenAI使用的Q*可能是指贝尔曼方程中的最优值函数。

换句话说，Q*可能代表OpenAI找到或接近了效率优化算法的最优解，实现了通往AGI的关键一步。

Q*会产生哪些后续影响？

目前，OpenAI还没有对关于Q*的一系列问题做出回应。

根据天风证券分析师孔蓉的观察，OpenAI近期的招聘进程表明其在进一步增强强化学习系统的决策能力。

OpenAI近期持续引入强化学习和决策算法研究人员。23年7月份新引进的研究员Noam Brown，开展多步推理和多智能体互动方面的研究。

Noam Brown 此前参与发表的工作将语言模型与规划和强化学习算法结合，大幅提升了AI在复杂策略游戏中的表现，开发出第一批在德扑无上限游戏中击败顶级玩家的AI。

OpenAI 近期于 5 月份发布的研究也表明，调整训练方式和引入更大规模的监督数据，将会显著提升强化学习系统的数学推理能力。OpenAI 引入针对过程的强化学习监督，进一步提升大模型在数据推理与计算的准确性。

据孔融推测，强化学习与决策算法进步或带来Q*大模型能力突破，GPT4 + 强化学习和决策算法，或能实现更强的AI Agent能力。

本文来自：华尔街见闻APP，作者：常嘉帅

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

淘宝升级商家体验：推出全新特色店铺与商品体系，加大店播支持

Previous 2023年11月24日

AIGC创业公司还没盈利，微软Adobe已赚得盆满钵满

Next 2023年11月24日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

OpenAI的神秘重大突破“Q*算法”究竟是什么？

相关推荐