AI大模型的智能,真是涌现出来的吗?

//www.quantamagazine.org/how-quickly-do-large-language-models-learn-unexpected-skills-20240213/

参考资料:
[1]。//www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/
[4]。

两年前,在“超越模仿游戏基准”(Beyond the Imitation Game Benchmark,简称BIG-bench)项目中,450名研究人员编制了一个包含204个任务的列表,旨在测试大语言模型(LLM,支撑ChatGPT等聊天机器人的模型)的能力。1在大多数情况下,随着模型规模的扩大,性能的提高是可预测且平滑的——模型越大,它的性能就越好。但做有些任务时,能力的提升并非循序渐进,而是在一段时间内表现平平接近零,然后突然跃升。其他研究也发现了类似的能力飞跃。

作者将这描述为“突破”(breakthrough)行为;其他研究人员将其比喻为物理中的相变,就像液态水冻结成冰一样。在2022年8月发表的一篇论文中,研究人员指出,这些行为不仅令人惊讶,而且不可预测,它们应该为围绕AI安全、潜能和风险不断发展的讨论提供信息。2他们将这些能力称作“涌现”(emergent),这一术语用于描述只有在系统达到一定的复杂度时才显现的集体行为。3

当然,事情可能没有那么简单。斯坦福大学三位研究人员撰写的一篇新论文提出,这些能力的突然出现仅仅源于研究人员测量LLM性能的方式。4他们认为,这些能力既不是不可预测的,也不是突然发生的。“这种转变比人们认为的要可预测得多,”斯坦福大学的计算机科学家、论文的首席作者桑米·科耶霍(Sanmi Koyejo)说,“涌现与我们选择测量的方式相关,也与模型正在执行的任务相关。”5

参数规模与性能提升

在模型已变得极其庞大的今天,我们才开始观察并研究这种行为。大语言模型通过分析庞大的在线资源文本数据集进行训练——包括书籍、网页搜索和维基百科——用以发现经常共现的词语间的联系。6模型大小是以参数的形式来衡量的,大致相当于所有可以连接词语的方式。参数越多,LLM可以找到的连接就越多。GPT-2拥有15亿个参数,而支撑ChatGPT的GPT-3.5使用了3500亿个参数。据报道,2023年3月推出、现在支持Microsoft Copilot的GPT-4使用了1.76万亿个参数

这种迅速的增长带来了性能和效率的惊人提升。人们相信足够大的LLM能够完成小型模型无法实现的任务,甚至它们未经训练的任务。斯坦福的三人小组将这种涌现现象描述为“幻觉”。

他们认识到,随着规模的扩大,LLM的效果变得更加显著:事实上,有赖于更大模型复杂性的增加,它们可能在更困难和多样化的问题上表现得更好。7不过他们认为,比起模型的内部工作机制,研究人员选择的度量标准,甚至是测试是否缺乏样例,更能决定这种改进的变化——到底是平滑且可预测的,还是突然飞跃的。

▷大语言模型的能力。横轴参数,纵轴准确率。Merrill Sherman/Quanta Magazine

三位数加法提供了一个例子。在2022年的BIG-bench研究中,研究人员报告说,使用较少的参数时,GPT-3和另一个名为LAMDA的LLM都未能准确完成加法问题。然而,当GPT-3使用130亿参数进行训练时,它的能力就像打开了开关,突然之间能够进行加法运算——而LAMDA在使用680亿参数时也掌握了这项能力。这表明在某个阈值时加法能力会出现。

推翻涌现:斯坦福的研究

斯坦福的研究人员指出了度量标准的问题。在实验中,准确性是人们对LLM的唯一评判标准:只有满分和零分两种结果。哪怕一个LLM预测出非常接近正确答案的数字,也会被判为任务失败。这似乎不太对。就好像在计算100加278的时候,376显然-9.34要准确得多。

因此,Koyejo及其合作者采用了一种“奖励部分正确答案”的度量标准来测试这一任务。“我们可以问:它预测第一个数字的准确度有多高?然后是第二个?接着是第三个?”他说。

Koyejo将这项新工作的灵感归功于他的研究生Rylan Schaeffer,他说Rylan注意到一个LLM的性能似乎随着测量它的能力的方式的不同而变化。他们与另一名斯坦福研究生Brando Miranda一起选择了新的度量标准,在新的标准下,随着参数的增加,LLM在加法问题中预测的数字序列越来越正确。这表明加法能力并非涌现——即突然的、不可预测的跳跃——而是逐渐的和可预测的。他们发现,当使用不同的度量标准时,涌现消失了。

反对的声音

然而,其他科学家指出,这项工作并未完全排除涌现的概念。例如,三人小组的论文没有解释如何预测何时哪些度量标准会在LLM中显示出突然的改进,东北大学的计算机科学家Tianshi Li说:“从这个角度来看,这些能力仍然是不可预测的。”8

目前就职于OpenAI的计算机科学家Jason Wei编制了一个涌现能力列表,他也是BIG-bench论文的共同作者之一。9他认为早期关于涌现的报告是有根据的,因为对于算术这样的能力来说,正确答案确实是最重要的

“这确实是一个有趣的讨论点。”AI初创公司Anthropic的研究科学家Alex Tamkin说。10他指出,新论文巧妙地将多步骤任务分解,以识别个别组件的贡献。“但我们不能以偏概全,不能就此说所有跳跃都是幻觉。我仍然认为文献显示,即使当你有进一步预测或使用连续度量时,仍然存在不连续性,随着模型大小的增加,你仍然可以看到它以跳跃式的方式进步。”

即使今天的LLM中的涌现现象可以通过不同的测量工具来解释,未来更大、更复杂的LLM也难保不会以同样的方式表现。“当我们将LLM推进到下一个层面时,它们将不可避免地从其他任务和模型中借鉴知识。”莱斯大学的计算机科学家Xia “Ben” Hu表示。11

对涌现现象的持续关注不仅仅是研究人员需要考虑的抽象问题。对Tamkin来说,这直接关系到人们在预测LLM行为课题上的不懈努力。“这些技术的应用范围如此广泛。”他说。“我希望社区将其视为一个跳板,继续强调构建这些模型的预测科学的重要性。毕竟,我们怎样才能确保下一代模型的表现不出现在我们的意料之外?”

原文链接:https://www.quantamagazine.org/how-quickly-do-large-language-models-learn-unexpected-skills-20240213/

参考资料:

[1]:https://arxiv.org/abs/2206.04615

[2]:https://arxiv.org/abs/2206.07682

[3]:https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/

[4]:https://arxiv.org/abs/2304.15004

[5]:https://cs.stanford.edu/~sanmi/

[6]:https://openai.com/research/language-unsupervised

[7]:https://www.quantamagazine.org/new-theory-suggests-chatbots-can-understand-text-20240122/

[8]:https://tianshili.me/

[9]:https://www.jasonwei.net/blog/common-arguments-regarding-emergent-abilities

[10]:https://www.alextamkin.com/

[11]:https://cs.rice.edu/~xh37/index.html

本文来自微信公众号:追问nextquestion (ID:gh_2414d982daee),编译:丹雀,编辑:张心雨桐

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月17日
下一篇 2024年4月17日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日