谷歌的AI，开始抢攻人类奥赛金牌了

2024年1月18日 15:28 • 未来科技

AlphaGeometry在解决一个简单问题时的过程：首先，给定问题及其定理假设（左图），AlphaGeometry（中图）利用其符号引擎对图形进行逻辑推理，从而推导出新的结论，直至找到答案或无法进一步推导。

AlphaGeometry合成数据生成过程

AlphaGeometry不仅找到了每个图表中的所有证明，还逆向追溯，确定为了得出这些证明需要增加哪些图形构造。

谷歌DeepMind的AI智能体，又破纪录了。

这个名叫AlphaGeometry的AI系统，能做出国际数学奥林匹克（IMO）的30道几何题中的25道，这个表现，已经接近了人类的奥数金牌得主。

从此，AI在数学领域的推理能力再次实现史诗级升级，超越此前的最高水平。

这一研究已经登上Nature。

论文地址：https://www.nature.com/articles/s41586-023-06747-5

下面这道IMO大赛几何真题，曾经难倒了一大批参赛选手，而如今，AI却能把做出来了。

更特别的是，这个模型是靠合成数据训练出来的，而非通常使用的真实数据。

训练过程是这样的：先初始生成了十亿个随机几何图形，全面分析每个图形中点和线的所有关系。

随后，AlphaGeometry找出了每个图形中所有的证明，并反向追溯出为得到这些证明所需添加的额外几何元素（如果有的话）。

就这样，AlphaGeometry结合了神经语言模型和符号演绎引擎的优势，已经形成了一个神经符号系统。

两个系统中一个提供快速提供直觉式的想法，另一个负责更谨慎理性的决策。一个大胆假设，一个小心求证，不断改进方案，为复杂的几何定理找到证明。

而合成数据的思路，也为大模型语料不足的问题，提供了崭新的出路。

网友惊呼：这简直就是创造了历史。

OpenAI研究科学家，德扑AI之父Noam Brown表示，“祝贺GoogleDeepMind团队取得这个成绩！看到AI在高等数学方面取得了如此大的进步，令人兴奋。”

真题实测

话不多说，我们直接上真题。

已知等腰三角形ABC中，AB和AC的边长相等，求证：∠ABC=∠BCA。

等腰三角形的底角相等，这是学过初中数学的人都知道的常识（等腰定理1），可是要怎么证明？

AlphaGeometry的做法是，通过运行符号推理引擎，来启动证明搜索。

这个引擎会从定理前提中不知疲倦地推导出新语句，直到定理被证明，或新语句被穷尽。

但如果符号引擎无法找到证明，语言模型就会构造一个辅助点，在符号引擎重试之前增加证明状态。

如是循环，一直到找到解决方案为止。

比如，在第一个辅助构造“D作为BC的中点”之后，环路终止了。

随后就开始证明过程，证明由另外两个步骤组成，这两个步骤都利用了中点的特性：“BD = DC”，“B，D，C是共线的”。

此后不断循环，直至证明∠ABC=∠BCA。

与此同时，2015年IMO的P3，也被AlphaGeometry轻松搞定。

如果要做对这道题，需要构建三个辅助点。

在这两种解决方案中，研究者将语言模型的输出（蓝色）和符号引擎输出交错排列，反映出了执行顺序（具体证明过程见论文）。

甚至，AlphaGeometry还在IMO 2004 P1中，发现了未被使用的前提。

由于提取最小前提所需的回溯算法，AlphaGeometry识别了一个对证明工作来说不必要的前提：O不必是BC的中点，P、B、C 就是共线。

其中，右上是原始定理图，底部是广义定理图，其中O从其中点位置释放出来，而P仍然停留在直线BC上。

原始问题要求P介于B和C之间，这是广义定理和解决方案无法保证的条件。但AlphaGeometry就解决了这一点。

此外，在做2008年IMO P6的证明题中，AlphaGeometry却失败了。这是所有30个问题集中最难的一个，人类平均得分仅为0.28/7。

值得一提的是，北大韦神曾连续两届以满分拿下了IMO 2008、IMO 2009的金牌。

为什么考AI要用奥数题？

怎么评价一个AI系统的数学和逻辑推理能力够不够强？

那自然是给它上最难的数学题，比如IMO的原题。

毕竟，能参加国际数学奥林匹克竞赛的，都是全世界数学最优秀的高中生，可以说代表了全人类的最高水平。

所以这一次测试，也可以看作AI和人类的对决。

专家们从2000年至2022年间的IMO竞赛题中，选出了30道，组成了IMO-AG-30基准测试集，然后在限定的比赛时间内，让“选手”们展开对决。

对决结果是，谷歌DeepMind的AlphaGeometry，已经接近了IMO金牌选手的水平。

人类金牌选手平均能解出25.9道题，而AlphaGeometry能解出25道，可以说已经无限逼近人类。

而此前的SOTA AI系统“吴氏方法”，仅能解出10道题。

除了吴氏方法，在AlphaGeometry与其他最先进的方法比较中，30道IMO试题，GPT-4一道也不会做，直接得了0分。

要知道，以前的AI智能体在处理复杂的数学问题时，时常受困于推理能力不足，以及训练数据的缺乏。

但AlphaGeometry的不同之处在于，它结合了神经语言模型的预测力，和基于规则的推理引擎，让这两个系统协同作业，从而寻找解决方案。

研究者还开发了一种方法，可以生成大量的合成训练数据——高达1亿个独特样本。

这样，就可以有效解决数据不足的问题，在不依赖人类示范的情况下训练AlphaGeometry。

通过AlphaGeometry，我们可以看出AI在逻辑推理、发现和验证新知识方面的能力，在不断增强。

今天，AI已经可以做出奥林匹克级别的几何题，再过一段时间，可能就会出现更高级、更通用的AI系统，直至某天出现AGI。

现在，谷歌DeepMind已经把AlphaGeometry的代码和模型开源，希望它们能和其他合成数据生成和训练的工具一起，为数学、科学和AI领域带来新的机遇。

项目地址：https://github.com/google-deepmind/alphageometry

几何证明双重buff：大模型+符号推理引擎

具体来说，AlphaGeometry是由2个主要组件构成的神经符号系统（neuro-symbolic system）：

1. 神经语言模型

2. 符号推理引擎

这个AI系统便是通过以上两个部分协同工作，实现复杂的几何定理证明。

谷歌DeepMind团队在此引用了“思考：快与慢”这本书中的理念。

“这有点像我们的‘直觉思维’和‘逻辑思维’：一个系统提供快速，基于直觉的想法，而另一个系统则进行更为缜密、基于逻辑的决策”。

这里，神经语言模型就是“系统1”，擅长发现数据中的普遍模式和关系，能够迅速预见到可能有帮助的几何构造。

然而，它们往往不擅长严密的推理，也不能解释自己的决策过程。

符号推理引擎则不同，可以看作是“系统2”。

它们基于形式逻辑（formal logic），按照明确的规则得出结论，这些结论既合乎逻辑又能解释清楚。

不过，符号推理引擎在解决大型、复杂问题，可能会显得“缓慢”且不够灵活。

AlphaGeometry在解决一个简单问题时的过程：首先，给定问题及其定理假设（左图），AlphaGeometry（中图）利用其符号引擎对图形进行逻辑推理，从而推导出新的结论，直至找到答案或无法进一步推导。如果答案未找到，AlphaGeometry的语言模型就会引入一个潜在有助于解题的新图形元素（以蓝色表示），为符号引擎提供新的推理途径。这个过程会不断重复，直到找到问题的解决方案（右图）。在这个示例中，仅需加入一个新的图形元素。

AlphaGeometry语言模型的作用就在于，指引符号推理引擎寻找解决几何问题的可能路径。

一般来说，IMO级别的几何题往往基于图表，需要在图表中添加新的几何元素，比如点、线或圆，才能找到解答。

AlphaGeometry的语言模型能够预测，在无限可能中哪些新元素最有助于解题。这些提示有助于补全信息的空缺，使得符号引擎能够对图表做出更多推断，并逐步逼近正确答案。

举个栗子，AlphaGeometry解决了2015年国际数学奥林匹克竞赛第三题（如下），右边是解题过程的精华部分。

整个解题的过程，共计109步逻辑推理。

图中的蓝色部分表示新增加的图形元素

此外，谷歌团队还让AlphaGeometry去解决IMO 2005的P3，共用了110步完成。

1亿个合成数据，从0训练AI

AlphaGeometry解决数学的能力如此强悍，而更让人震惊的是：仅用合成数据从0开始完成训练。

正如谷歌DeepMind所言，因为缺乏训练数据，AI系统一直难以解决棘手的几何问题。

对此，研究人员采用了“合成数据”的技术，模拟知识积累过程，无需任何人类演示教学，从0基础开始训练AlphaGeometry。

如下图所示，便是通过合成数据生成的随机图形的部分示例。

谷歌使用了10万个CPU，最初生成了10亿个几何对象的随机图，并对每个图表中的点和线条之间的所有关系进行了全面的推导（运行符号演算和回溯过程用了3-4天）。

AlphaGeometry合成数据生成过程

AlphaGeometry不仅找到了每个图表中的所有证明，还逆向追溯，确定为了得出这些证明需要增加哪些图形构造。

研究人员将这个过程称为“符号演绎与追溯”。

AlphaGeometry生成合成数据的可视化

在这庞大的数据集中经过筛选，剔除重复的样本，最终获得了1亿个涵盖不同难度级别的独特训练样本的数据集。

其中，还包含了900万个附加构造的样本。

AlphaGeometry的语言模型通过分析这些构造，如何帮助完成证明的众多案例，能够在处理奥林匹克级几何题时，提供有效建议，设计出新的几何构造。

对生成的合成数据的分析

IMO金牌得主盛赞，AI开创数学推理先河

AlphaGeometry针对IMO赛题给出的解答，都通过了计算机验证。

谷歌DeepMind将成果与先前的AI方法，以及奥林匹克竞赛中的人类选手表现进行了比较。

AlphaGeometry证明步骤与IMO参与者在不同问题上的平均得分

值得一提的是，他们还请来数学教练及IMO金牌得主Evan Chen评审了AlphaGeometry的部分解答：

AlphaGeometry的输出结果令人称赞，它不仅可以经得起验证，而且表述清晰。以前的AI在解决证明类竞赛题目时，其解答有时候不够可靠（输出结果时对时错，需要人类进行核查）。AlphaGeometry不会出现这样的问题：它的解答具备可由机器验证的结构。

即使如此，它的输出也便于人类理解。原本可以设想的是，一款计算机程序通过暴力破解坐标系统来解决几何题目，那将是一连串枯燥的代数运算。但AlphaGeometry并非如此，它采用的是学生们所学的传统几何规则，包括角度和相似三角形的知识。

每场IMO竞赛中，共有6道题目，通常只有2道与几何有关。

因此，AlphaGeometry只能在大约三分之一的奥赛题目中发挥作用。

尽管如此，它在几何领域的能力，已足以让它成为“世界上首个通过2000年和2015年国际数学奥林匹克铜牌标准的AI模型”。

在几何题解答方面，AlphaGeometry已经接近IMO金牌选手的水平。

谷歌DeepMind称自己的野心不止于此，还希望推动下一代AI系统在推理方面的发展。

从0开始，利用大规模合成数据对AI系统进行训练，这种方法有望影响未来AI系统在数学和其他领域的新知识发现范式。

其实，在构造出AlphaGeometry系统之前，谷歌DeepMind和Google Research在AI数学推理上，做了大量的奠基性工作。

此前，谷歌DeepMind就曾推出FunSearch，打破了LLM首次在数学领域未解之谜上取得发现的纪录。

而谷歌DeepMind的长期目标，就是打造能跨越不同数学领域、具备解决复杂问题、能够进行高级推理的AI系统，直到实现AGI。

网友：AGI奇点临近

AlphaGeometry诞生，堪比AlphaFold、AlphaCode等“阿尔法家族”面世在AI领域掀起的巨震。

与此同时，“合成数据”的重要性和潜力也愈加凸显。

Google DeepMind联合创始人兼首席AGI科学家Shane Legg称，“我还依稀记得1990年Christchurch的New Zealand IMO训练营里试图解决疯狂的几何难题，现在看到人工智能在这方面变得如此出色，我有点震惊！AGI越来越近了”。

昨天，UCLA博士生Pan Lu关于数学推理基准MathVista研究被ICLR 2024接收为Oral论文。

在看到谷歌最新研究后，他表示，“2021年，我们探索了几何学的早期研究：我们的InterGPS，一个神经符号求解器，第一次达到了人类的平均水平。现在，AlphaGeometry标志着历史性的突破：获得了奥林匹克级别的技能！”

有网友表示，这简直就是一个大事件。数学推理可以延伸到物理学，物理学也可以延伸到化学和生物学。未来几年，人工智能可能会主导研究。奇点正在逼近。

大多数在职的数学家都无法做到这一点，尤其是在规定的时间内。仅用合成数据进行训练，表明数学没有数据瓶颈。因为我们可以轻松地生成无限高质量的合成数据。

英伟达机器学习科学家Shengyang Sun好奇地问，“这些合成问题会在IMO 2024出现吗”？

CMU机器学习博士Jing Yu Koh表示，“2024年是合成数据年！我非常喜欢几何领域，因为你有办法将其与现实世界相结合，以确保合成数据的有效性”。

参考资料：

https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

https://www.nature.com/articles/s41586-023-06747-5

本文来自微信公众号：新智元（ID：AI_era），作者：新智元

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

2023国产电影翻拍观察：国外的月亮，国内阴晴圆缺

Previous 2024年1月18日

AI电商，暗流涌动

Next 2024年1月18日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

谷歌的AI，开始抢攻人类奥赛金牌了

相关推荐