全网大讨论：引爆OpenAI全员乱斗的Q*到底是什么？

2023年11月25日 15:12 • 未来科技

据。

Q-learning。

Bandit。//twitter.com/BrianRoemmele/status/1727558171462365386

Q-learning。//garymarcus.substack.com/p/about-that-openai-breakthrough

本文来自微信公众号：机器之心。

本周三，OpenAI 的“宫斗”随着山姆·奥特曼回归 CEO 大位而告一段落，不过此次事件的余波还在震撼着关心 AI 的每一个人。我们都想知道，是什么让 OpenAI 前董事会不计任何代价也要开除奥特曼。

最近几天，互联网上有关 Q* 的讨论前所未有的热闹。

据 The Information 本周四报道，由 OpenAI 首席科学家 Ilya Sutskever 领导的团队在今年早些时候取得了技术突破，使得他们能够构建一个名为 Q*（音同 Q star）的新模型。Q* 最关键的突破是它能够解决基本的数学问题。

又据路透社报道，Q * 模型引发了 OpenAI 内部的一场风暴，几名工作人员写信给 OpenAI 董事会，警告称这一新突破可能会威胁人类。这一警告被认为是董事会选择解雇山姆・奥特曼（Sam Altman）的原因之一。

让 AI 解决基本数学问题的能力听起来似乎没有很厉害，但实际上这代表着大模型能力的巨大飞跃。很多近期研究表明，现有模型很难在训练数据之外进行泛化。

越来越多的工程师和研究人员加入了对 Q * 的猜测和讨论之中。

据 Business Insider 报道，人工智能初创公司 Tromero 的联合创始人 Charles Higgins 表示：“对抽象概念进行逻辑推理正是目前大模型真正面临的难题。数学涉及大量符号推理，例如“如果 X 大于 Y，Y 大于 Z，那么 X 大于 Z。”而现有语言模型不进行逻辑推理，只是拥有有效的直觉。

那么，Q * 模型为什么可以进行逻辑推理？它的名字暗示了这个问题的答案。

Q * 暗示其结合了两种著名的人工智能方法 ——Q-learning 和 A* 搜索。

Q-learning 是人工智能领域的一个基本概念，它是一种无模型强化学习算法，旨在学习特定状态下动作（action）的价值（value）。Q-learning 的最终目标是找到一个最优策略，定义在每个状态下采取的最佳动作，从而随着时间的推移最大化累积奖励（reward）。

ChatGPT 开发者之一的 John Schulman 2016 年在一次演讲中提到过这个概念，引入 Q* 到优化策略中：

所以在每个状态下，哪种行动能有最优奖励？

Bandit 问题可以利用贝尔曼方程来解决。

Q-learning 基于 Q 函数，即状态动作价值函数。在简单的场景中，Q-learning 会维护并更新一个 Q-table，更新规则通常表示为：

图源：https://twitter.com/BrianRoemmele/status/1727558171462365386

Q-learning 的关键是平衡探索（尝试新事物）和利用（使用已知信息）。简单来说，Q* 可以实现最优策略，这在强化学习等 AI 方法中是算法重要的步骤，有关算法能否采取最佳决策，找到“正确解”。通常，被称为“Q Learning”的行为不会指代对上下文的搜索，或者至少不会作为算法的高级名称。它通常用于指代贪婪行为的代理。

另外也有人认为，或许如果 Q 指代 Q Learning，那么 * 就是来自 A* 搜索。

A*（A-Star）算法是一种静态路网中求最短路径最有效的直接搜索方法，也是解决许多搜索问题的有效算法。算法中的距离估算值与实际值越接近，最终搜索速度越快。

这样的思路也很有趣。

最后，如果你想了解更多 Q-learning 的内容，可以参看强化学习之父 Richard S. Sutton 那本著名的《Reinforcement Learning: An Introduction》。

值得注意的是，OpenAI 为大模型训练使用的 RLHF 方法，旨在让模型从人类反馈中学习，而不是仅仅依赖于预定义的数据集。

人类反馈可以有多种形式，包括更正、不同输出的排名、直接的指令等等。AI 模型会利用这些反馈来调整其算法并改进响应。这种方法在定义明确规则或提供详尽示例的挑战性领域特别有用。有人猜测，这就是为什么 Q* 接受逻辑训练并最终能够适应简单算术的原因。

然而，Q-learning 算法对实现通用人工智能（AGI）能起到多大的作用？

首先，AGI 是指人工智能系统理解、学习并将其智能应用于各种问题的能力，类似于人类智能。Q-learning 虽然在特定领域很强大，但实现 AGI 必须要克服一些挑战，包括可扩展性、泛化、适应性、技能组合等等。

实际上，近年来涌现了很多尝试将 Q-learning 与其他深度学习方法结合的研究，例如将 Q-learning 与元学习结合，让 AI 学会动态调整其学习策略。

这些研究的确让 AI 模型有了能力上的改进提升，但是 Q-learning 是否能帮助 OpenAI 实现 AGI 还未可知。

PerplexityAI 的 CEO Aravind Srinivas 认为，Sutton 的文章《惨痛的教训》告诉我们，计算才是前进的方向。我们需要更多数据（不仅是参数）来有效地使用计算。如果我们最大限度地利用互联网上的数据，那就需要模型本身来生成下一个 token，即递归的自我完善：

那么这应该根本就不危险，正如以前计算机视觉研究中，对于图像数据进行翻转和裁剪以训练分类器一样。

也有人猜测，Q* 是 AlphaStar 式搜索 + LLM 的传说中的突破，它是很多 AI Lab 正在努力的方向。但考虑到 GPT-4 自验证 + 搜索此前一些尝试有限的提升，我们距离 AGI 还是很远的。

如果正如各路媒体所报道的，Q * 的突破意味着下一代大模型可以将支持 ChatGPT 的深度学习技术与人类编程的规则结合起来。这种方法可以帮助解决困扰当前大模型的幻觉问题。

这可能会是个重要的技术发展里程碑。在实际层面上，应该距离 AI 终结世界还很远。

“我认为人们之所以相信 Q* 将通向通用人工智能，是因为从我们迄今为止所听到的情况来看，它似乎会将大脑的两侧结合起来，并且能够从经验中了解一些事情，同时仍然能够推理事实，”Tromero 联合创始人 Sophia Kalanovska 表示。“这绝对离我们所认为的智能更近了一步，并且更可能让模型产生新的想法。”

无法推理和创造新想法，仅仅是从训练数据中总结信息 —— 这被视为现有大模型的局限性，甚至对于参与这些方向研究的人来说，他们也在被框架所局限。

萨里学院人类中心 AI 研究所负责人 Andrew Rogoyski 认为，解决前所未见的问题是构建 AGI 的关键一步：“就数学而言，我们知道现有的人工智能已被证明能够进行本科水平的数学运算，但无法处理更高级的数学问题。”

“然而，如果人工智能能够解决新的、看不见的问题，而不仅仅是反省或重塑现有知识，那么这将是一件大事，即使所涉及的问题相对简单，”他补充道。

并非所有人都对 Q * 可能带来的突破如此兴奋。著名 AI 学者，纽约大学教授 Gary Marcus 在他的个人博客上发表了一篇文章，对 Q* 所报道的功能表示怀疑。

“OpenAI 的董事会可能确实会对新技术表示担忧…… 尽管有一些说法称 OpenAI 已经在尝试测试 Q*，但他们在几个月内彻底改变世界是不现实的，”Marcus 表示。“如果我每一个这样的推断（Q * 可能威胁人类）都能得到五分钱，我就会成为马斯克级别的首富。”

图灵奖得主 Yann LeCun 在与 Geoffrey Hinton 讨论 AI 风险问题之余也点评了 Q*：

LeCun 认为：“Q * 很可能只是 OpenAI 用规划取代自回归 token 预测的一种尝试。现在关于 Q* 的推测只不过是废话。”

马斯克也参与了讨论，顺便还宣传了下自家模型。他表示，你们讨论的能力 Grok 都会有：

对于 Q*，OpenAI 仍然没有对外界的询问给予回应。

人们的讨论还在继续，或许在 OpenAI 下一个大模型发布之后，我们才能真正得到答案。

参考内容：

https://www.businessinsider.com/openai-project-q-sam-altman-ia-model-explainer-2023-11

https://twitter.com/BrianRoemmele/status/1727558171462365386

https://garymarcus.substack.com/p/about-that-openai-breakthrough

本文来自微信公众号：机器之心（ID：almosthuman2014），编辑：泽南、小舟

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

搜狐的“内容生意经”

Previous 2023年11月25日 09:55

守住1美元的“生死线”：逸仙电商的转型与救赎

Next 2023年11月25日 16:35

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

全网大讨论：引爆OpenAI全员乱斗的Q*到底是什么？

相关推荐