这一次，谷歌成功将压力给到了OpenAI

2023年12月15日 11:18 • 未来科技

装箱问题中，FunSearch比传统方式（左）更高效，可以用更少的箱子装入同样数量的物体

并且最重要的是，FunSearch给出的解法并不是一个“黑箱”，而是一个解决问题的程序，也就是说，FunSearch是真正的“授之以渔”，这对于科学家们来说是极为重要的突破。

值得一提的是，FunSearch和研究人员还可以相互协作解决问题，FunSearch给出的程序有很好的可解释性，这为研究人员提供了有价值的参考，研究人员借此获得了对问题的新洞察，改进引入到FunSearch中的问题，从而让FunSearch找到更好的解法，形成这种良性循环。

智东西12月15日消息，刚刚，谷歌DeepMind实现了数学大模型领域的重要突破，其发布的FunSearch针对诸多历史上经典数学难题给出了新的解法，能力超越了人类数学家，相关研究已登陆Nature。

简单来说，FunSearch就是一种基于大模型来解决数学问题的新方法，一套新AI技术。

FunSearch的研究意味着：历史上第一次有人用大模型，对科学或数学中具有挑战性的开放性问题给出了新的发现或解法。

FunSearch在经典的“帽子集（Cap set）”难题中，找到了有史以来“最大的帽子集”，据称这是过去20年里帽子集的上限规模增加最大的一次。

而在另一个经典“装箱（Bin packing）”问题中，FunSearch的性能超越了传统方式，并且相比神经网络和强化学习的AI技术，消耗的资源更少，灵活性更强。

装箱问题中，FunSearch比传统方式（左）更高效，可以用更少的箱子装入同样数量的物体

并且最重要的是，FunSearch给出的解法并不是一个“黑箱”，而是一个解决问题的程序，也就是说，FunSearch是真正的“授之以渔”，这对于科学家们来说是极为重要的突破。

这背后，研究人员通过新的方法防止大模型“幻觉”的出现是非常关键的，这也打破了许多人认为大模型很难找到“可验证”的新发现的固有印象。

FunSearch的研究可以应用在数据中心领域，以及各类工业系统中，用来提升任务处理的效率，其实际应用价值是巨大的。

数学难题一直是大模型很难“征服”的领域之一，这一次，谷歌成功将压力给到了OpenAI。

一、历史首次，大模型不仅给你答案，还给你解题思路

大家都知道大模型（LLM）很有用，它们几乎无所不能，但在发现全新知识方面却有些捉襟见肘，因为大模型的“幻觉”问题由来已久，用大模型去找到一些“可验证”的正确新发现是很有挑战的。

但这次谷歌DeepMind发表的这项研究，彻底颠覆了这一想法。

这个名为“FunSearch”的方法，是一种在数学和计算机科学中寻找新解决方案的方法。

从工作原理上来看，FunSearch将预先训练的大模型（其训练目标是以计算机代码的形式提供创新解决方案）与自动“评估器（Evaluator）”配对，这个评估器就是用来防止幻觉和错误想法出现的。通过在这两个组件之间反复迭代，初始解决方案就会“演变”为新知识。

这套系统在运行过程中，会搜索（Search）以计算机代码编写的“函数（Functions）”，因此得名FunSearch。

用大模型对科学或数学中具有挑战性的开放性问题给出新解法，并且结果更优秀，DeepMind发文称这尚属首次。

比如FunSearch发现了经典“帽子集”问题的新解决方案，这是数学领域中一个长期未解的问题。此外，为了展示FunSearch的实用性，研究员还用它发现了“装箱”问题的更有效的算法。

这些新方案和新算法在加速数据中心处理效率方面有着广泛应用。

值得一提的是，FunSearch最牛的地方在于，它不仅可以给出解法，还可以让研究人员看到“解题过程”，提供新的灵感，可以说是“授之以渔”了。

FunSearch输出的程序可以揭示其解决方案是如何构建的，而不是仅仅给出一个最终解决方案，这也让FunSearch成为了一个极为强大的科学工具。这一科学工具可以激发科学家们对相关问题进行进一步深入研究。

解决两个历史经典数学难题，能力远超科学家，比神经网络和强化学习更高效

我们具体来看看FunSearch到底解决了哪些经典数学问题。

1. 帽子集问题

首先，FunSearch解决的是帽子集问题，这一开放式数学问题几十年来一直困扰着多个研究领域的数学家。研究团队与相关领域的数学教授进行了合作。

简单来看，解决帽子集问题，需要在一个高维网格中寻找最大的点集（被称为帽集，a cap set），而在这个网格中，一条直线不可以同时经过三个点。

当然，要解决这一问题，依靠“暴力计算”是不可能的，因为可能性的数量会很快超过宇宙中原子的数量。

FunSearch以程序的形式生成了一些解决方案，在一些设置之下，发现了有史以来“最大的帽子集（the largest cap sets ever found）”，这是过去20年里帽子集的上限规模增加最大的一次。

此外，FunSearch的表现超过了最先进的计算求解器，因为这个问题的规模已经远远超出了这些计算求解器当前的能力。

FunSearch给出的程序

这些结果表明，FunSearch技术在处理困难的组合问题时，可以找到超越已有答案的解法，而这些问题往往难以建立“直觉（Intuition）”。

研究人员希望FunSearch可以在解决组合学中类似的理论问题时发挥作用，未来它可能会在通信理论等领域开辟新的研究可能性。

2. 装箱问题

除了帽子集问题，研究人员还利用FunSearch尝试解决了另一个“臭名昭著”的挑战——“装箱”问题，借此来探索FunSearch的灵活性。

简单来说，“装箱”问题就是如何将不同大小的物品打包到最少数量的箱子中，这其实是很多实际问题的核心，从集装箱装卸到数据中心分配计算任务，如何最小化成本。

虽然装箱跟帽子集问题有很大不同，但研究人员使用FunSearch来解决这个问题依然很容易。

FunSearch直接给出了一个可以自动定制的程序（可以根据数据的具体情况进行调整），其性能超过了传统的启发式方法（Best-fit heuristic），可以用更少的箱子打包相同数量的物品。

打包相同数量物品，FunSearch只用了五个箱子，而传统方式要用六个

当然，装箱问题可以用其他AI技术来解决，比如神经网络和强化学习，这些方法也被证明是有效的，但可能需要更大量的资源来部署。

另一方面，FunSearch输出的代码可以被很容易地检查和部署，这意味着它给出的解决方案可能被直接应用到各种实际的工业系统中，带来立竿见影的效率提升。

二、基于谷歌PaLM 2，还有三个关键方法改进

下面我们具体来看FunSearch的运作方式，其实这是一种“由大模型驱动的演化方法”，FunSearch会对大模型给出的解法评分，并持续迭代评分最高的解法。这些解法以计算机程序的形式表达出来，因此可以自动运行和评估。

首先，用户以代码的形式编写问题的描述。这个描述包括一个评估程序的过程，以及一个用于初始化程序池的种子程序（a seed program）。

FunSearch是一个迭代的过程，在每次迭代中，系统从当前的程序池中选择一些程序，这些程序被提供给大模型，而大模型会创造性地基于这些程序生成新的程序，新生成的程序会被自动评估。

评分最高的程序会被添加回现有程序的池中，由此形成一个自我改进的循环。

研究特别提到，FunSearch虽然此次使用的是谷歌的PaLM 2，但FunSearch与其他在代码上训练的大模型都是兼容的。

FunSearch的运作流程

实际上，在不同领域发现新的数学知识和算法是一项非常困难的任务，这已经大大超出了最先进的AI系统的能力。为了用FunSearch来解决这些具有挑战性的问题，研究团队引入了多个关键组件。

研究团队并非让FunSearch从头开始寻找答案，而是让它基于这些问题的常见解法开始进行解法的迭代演化。

此外，在演化过程中，研究人员使用了一种策略来提高大模型给出解法的多样性，以避免“原地打转”。最后，研究人员还通过并行运行演化过程提高了系统的效率。

三、FunSearch擅长“以小见大”，可以与研究人员协同解决问题

提到FunSearch的优势，研究人员称，FunSearch不是一个只生成问题解决方案的黑箱。相反，它生成的是描述如何得到这些解决方案的程序。

这种“展示工作过程”的方法是科学家们通常的操作方式，新的发现，往往需要发现产生的过程来进行解释。

FunSearch更倾向于找到由高度紧凑的程序表示的解决方案，这些方案具有低“Kolmogorov复杂性”。简单来说，FunSearch可以用很简短的程序描述非常大的目标对象，在研究人员看来，这让FunSearch有了“大海捞针”一般的能力。此外，这也让研究人员更容易理解FunSearch给出的程序输出。

与DeepMind团队合作的大学教授感叹称，它自己在研究FunSearch生成的解决方案时也“学到了一些东西”。

研究人员通过检查FunSearch生成的代码获得新的见解（高亮部分）

四、解决“幻觉”问题，大模型将在更多领域发挥重要作用

这次谷歌DeepMind的研究表明，如果研究人员可以一定程度上抑制大模型的“幻觉”问题，大模型将会在诸如数学等领域涌现出新的应用潜力，大模型解决重要实际问题的能力也将有显著提升。

未来，对于科学和工业中的许多问题，使用大模型驱动的方法去生成有效的、定制的算法和程序，或许会成为更常见的做法。

谷歌DeepMind的研究只是一个开始，未来以FunSearch为代表的基于大模型的研究方法将继续迭代，大模型也将在更多领域释放自己的潜力。

本文来自微信公众号：智东西（ID：zhidxcom），作者：云鹏，编辑：编辑：李水青

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

巨额营销、新业务亏损，美团如何突围本地生活？

Previous 2023年12月15日 11:10

虚增收入、信披不及时，遥望科技叒叒让投资者们失望了？

Next 2023年12月15日 11:21

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

这一次，谷歌成功将压力给到了OpenAI

相关推荐

Share To :