黄仁勋对话Transformer论文的七位作者，都说了啥？

2024年3月21日 14:25 • 未来科技

”黄仁勋说，“今天我们所享受的一切，都能追溯到Transformer出现的那一刻，我们从大量的数据中学习，以一种有序的方式，有序的数据以及空间数据，通过从大量的数据中学习来找到关系和模式，并创建这些巨大的模型是非常具有变革性的。”

随着黄仁勋抛出第一个问题“是什么驱动你们创造出了Transformer”，圆桌讨论正式开始。

今年的英伟达GTC，英伟达创始人&CEO黄仁勋在主题演讲之外，公开的活动就只有一场圆桌讨论——Transforming AI。

当地时间早上7:00，距离这场圆桌讨论开始还有4个小时，就有观众来到了圣何塞McEnery会议中心。圆桌讨论开始前1个小时，门口已经排起长龙。

GTC现场，图片来源：“甲子光年”拍摄

观众如此关注这场圆桌讨论的原因除了黄仁勋之外，还有英伟达预告的重磅嘉宾：Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser和Illia Polosukhin。

他们都曾就职于Google，也是论文《Attention Is All You Need（注意力就是你所需要的一切）》的作者，被称为“Transformer论文八子”，而这篇论文也被称为“梦开始的地方”。

2017年，Google团队发表了一篇文章《Attention Is All You Need》。这篇开创性的论文介绍了基于Transformer的深度学习架构。Transformer彻底改变了自然语言处理（NLP）领域，它的自注意力机制也被广泛应用于计算机视觉等其他领域，并对AI研究产生了深远影响，成为了AI发展史上的一个里程碑。截至今天，这篇论文的被引用次数已高达112576。

黄仁勋也是这篇论文的“受益者”之一。

如果说ChatGPT是席卷AI行业的一场“风暴”，那么Transformer就是“扇动翅膀”的那只蝴蝶；如果说英伟达是AI时代的“卖铲人”，那么这篇论文带来的巨大算力需求就是其背后的底气。

俗话说“吃水不忘挖井人”，黄仁勋这次把这篇论文的七位作者（Niki Parmar因家有急事未能到场参会）都邀请到了现场，在此之前，他们从未以这样的形式出现在同一场合解读Transformer。

值得一提的是，到场的七位嘉宾中，除了Lukasz Kaiser在OpenAI担任工程师，其他人都在创业。

“这年头大家创业的公司名称几乎都包含‘AI’。”黄仁勋在介绍到场嘉宾时说，“其实我们NVIDIA的名字也包含‘AI’，只不过字母顺序反了。我一直都知道我需要字母A和字母I。”黄仁勋的幽默引发了全场的笑声。

面对七位嘉宾，黄仁勋像一位综艺节目主持人一样问了很多直白朴素的问题：

这个主意怎么想出来的？

为什么要起这样一个论文标题？

Transformer这个词是怎么来的？当时还有其他可选的词吗？

新的模型技术将是什么？

你们想要探索什么？

七位嘉宾分别回答了相关问题，不过Cohere联合创始人&CEO Aidan Gomez说出了一句意味深长的话：“我们希望世界可以诞生比Transformer更好的东西。”

一、“RNN是蒸汽机，Transformer是内燃机”

“你们能来真的太好了！”黄仁勋说，“今天我们所享受的一切，都能追溯到Transformer出现的那一刻，我们从大量的数据中学习，以一种有序的方式，有序的数据以及空间数据，通过从大量的数据中学习来找到关系和模式，并创建这些巨大的模型是非常具有变革性的。”

由于观众太过热情，这场圆桌讨论开始的时间有些推迟，不过黄仁勋倒是希望现场的氛围可以更热烈，他告诉七位嘉宾：“今天坐到这里，请大家积极争抢发言的机会，在这里没有什么话题是不能谈的，你们甚至可以从椅子上跳起来讨论问题。”

随着黄仁勋抛出第一个问题“是什么驱动你们创造出了Transformer”，圆桌讨论正式开始。

Transformer的最初目标是解决一个朴素的问题——机器翻译。

NEAR Protocol联合创始人Illia Polosukhin表示：“我们通常遇到问题就会去Google搜索，但如果需要在它反馈回来的‘成吨’网页中做快速处理，当时的RNN（循环神经网络）是无法做到的。因为它们需要逐个单词地处理文本。”

Inceptive联合创始人&CEO Jakob Uszkoreit回忆，他们最初的目标是解决处理序列数据（如文本、音频等）的问题。在一个特定时期，由于生成训练数据的速度远超过训练复杂神经网络架构的能力，因此在实际应用中更倾向于使用简单且训练速度更快的模型，如以n-gram为输入特征的前馈神经网络。

“在拥有大量训练数据的情况下，更简单的模型架构（例如，仅包含前馈网络的模型）在处理大规模数据时表现得比更复杂的RNN和LSTM更好，因为它们的训练速度更快。”Jakob Uszkoreit说。

Character.AI联合创始人&CEO Noam Shazeer当时主要关注在自注意力（self-attention）机制的引入和模型的扩展性上，“我们在2015年左右就注意到这些Scaling law（规模法则）。”

他还幽默地表示：“RNN就像蒸汽机一样，而Transformer模型则像内燃机。我们当然可以在坐在蒸汽机上完成工业革命，只不过‘屁股会烧得很疼’，内燃机的效果则要好得多！”

Essential AI联合创始人&CEO Ashish Vaswani则更倾向于让模型自主学习并设计一个具有广泛适用性的框架，他用之前在工作中遇到的两个教训阐述了自己的思考。

“第一个教训是，我们需要明白梯度下降（gradient descent）是一位出色的老师。”Ashish Vaswani在研究机器翻译时领悟道相比于自己去学习语言规则，让梯度下降这种训练模型的算法来处理会更高效。

“第二个教训是，可扩展的通用架构一定会胜利的。”谈到这里时，Ashish Vaswani用了“苦涩的教训”（bitter lesson）的说法，即那些可以扩展并且具有通用性的架构最终会更胜一筹，“能够像Transformer一样处理各种不同任务和数据类型的模型，一定会比专为特定任务设计的模型效果更好。”

OpenAI技术团队成员Lukasz Kaiser和Sakana AI联合创始人&CTO Llion Jones也分享了他们对模型直观性的看法，尤其是在机器翻译领域的应用。同时，他们也提到了如何通过消融实验（移除模型的一部分）来改进模型性能。

《Attention is all you need》这个论文标题是Llion Jones想到的，他还透露，起标题时只是在做“消融术”（ablations）。

至于Transformer这个名字，则是由Jakob Uszkoreit提议的。他的理由非常直接，因为模型改变了他们处理数据的方式，所有的机器学习都是“Transformer”，都是颠覆者。

Noam Shazee提到他之前想过很多名字，比如“Cargornet”（货运网），但投票没有通过。

“还好被否决了。”黄仁勋调侃了一句。

“Transformer”这个名字体现了它的核心能力：能够全面且广泛地转换数据。Transformer完全抛弃了RNN的逻辑，由自注意力机制组成。这一点与人脑处理信息时的方式不谋而合。人脑在理解句子时能自然地忽略次要细节，更专注于关键信息。Transformer就采用了类似的策略，能够识别并理解序列数据中不同元素之间的相关性，从而提高数据处理的效率和准确性。

通过这个技术，模型能够在处理文本、音频等连续数据时，更加灵活、高效地调整信息，得到更准确、内容更丰富的结果。

Jakob Uszkoreit还强调了Transformer模型的一个关键能力：它能够在每一步处理时都全面转换它正在处理的信息，而不是仅仅关注信息的一小部分。这种全方位的处理能力也是它命名为“Transformer”的原因之一。

Transformer模型架构，图片来源：《Attention is all you need》

Transformer带来的另一个重要创新是，能够利用并行计算极大地加速深度学习模型的训练过程。这为大规模预训练模型的发展奠定了基础，开启了迈向通用人工智能（AGI）之路。

而GPU非常适合并行计算，擅长研发、生产GPU的英伟达由此成为了AI时代“卖铲人”。黄仁勋也从当年在小米手机活动上自称的“米粉”，变成了AI行业中几乎所有人都想接近的“AI教主”。

除了在自然语言处理领域取得的成绩，Transformer技术还被广泛应用于语音识别和计算机视觉等多个领域，证明了其在处理各种序列数据上的通用性和有效性。正是这些创新的技术，推动了人工智能领域的快速发展，让我们能够预见到一个与智能机器无缝交流的未来。

二、“世界需要比Transformer更好的东西”

Transformer的问世，离不开这篇论文每一位作者的付出。

最初是Jakob Uszkoreit提出了用自注意力机制替换RNN的想法，并评估了这一想法；

Ashish Vaswani与Illia Polosukhin一起设计并实现了第一个Transformer模型；

Noam Shazeer提出了缩放点积注意力、多头注意力和无参数位置表示；

Niki Parmar在原始代码库和tensor2tensor中设计、实现、调优和评估了无数模型变体；

Llion Jones尝试了新型模型变体，他主要负责最初的代码库，以及高效推理和可视化；

Lukasz Kaiser和Aidan Gomez花费了无数漫长的时间设计和实现了tensor2tensor的各个部分，取代了早期的代码库，加快了研究进程。

现在，Transformer创造者的目光已经不再局限于Transformer。他们在不同的领域，共同探讨着下一步的AI走向。

“世界需要比Transformer更好的东西（the world needs something better than Transformers）。”Aidan Gomez的语气很坚定。

他认为，如果Transformer是他们能做到的极致，“这会很可悲”，但他话锋一转又说道：“虽然提交报告的第二天起我就这么认为了。我希望它能被其他好10倍的框架取代，这样每个人都能拥有更好10倍的模型！”

目前，Transformer的内存方面存在许多效率低下的问题，且许多架构组件从一开始就保持不变，应该“重新探索、重新考虑”。例如，一个很长的上下文会变得昂贵且无法扩展。此外，“参数化可能不必要地大，我们可以进一步压缩它，我们可以更频繁地共享权重——这可能会将事情降低一个数量级。”

Jakob Uszkoreit进一步解释道：“未来重点要思考的是如何分配资源，而不是一共消耗了多少资源。我们不希望在一个容易的问题上花太多钱，或者在一个太难的问题上花太少而最终得不到解决方案。”

“例如‘2+2=4’，如果你正确地将他输入到这个模型中，它就会使用一万亿个参数。所以我认为自适应计算是接下来必须出现的事情之一，我们知道在特定问题上应该花费多少计算资源。”Illiya Polosukhin补充。

Lukasz Kaiser对此也有思考，他认为，根本性问题在于，哪些知识应该内置于模型之中，哪些知识应该置于模型之外？“是使用检索模型吗？RAG（Retrieval-Augmented Generation）模型就是一个例子。”

同样地，这也涉及到推理问题，即哪些推理任务应该通过外部的符号系统来完成，哪些推理任务应该直接在模型内部执行。这在很大程度上是一个关于效率的讨论。我确实相信，大型模型最终会学会如何进行‘2+2’这样的计算，但如果你要计算‘2+2’，却通过累加数字来进行，那显然是低效的。”

黄仁勋回应道：“如果AI只需要计算2+2，那么它应该直接使用计算器，用最少的能量来完成这个任务。”

“确实如此，但我同样确信在座的各位所研发的人工智能系统都足够智能，能够主动使用计算器，”Noam Shazeer说，“目前全球公共产品（GPP）正是这样做的。我认为当前的模型太过经济实惠，规模也还太小。它之所以便宜，是因为像英伟达这样的技术，感谢它的产出。”

此前Noam Shazeer在接受采访时就认为，AGI是很多AI初创企业的目标。但他创业的真正原因是想推动技术发展，用技术攻克难题，如医学上的疑难杂症。他指出，AI能加速许多研究的进程，与其直接研究医学，不如研究AI。

他在圆桌讨论现场也表达了类似的观点：“如果你观察一个拥有五千亿参数的模型，并且每个token进行一万亿次计算，那就大概是1美元百万token，这比外出购买一本平装书并阅读的成本要便宜100倍。我们的应用程序在价值上比巨型神经网络上的高效计算高出百万倍或更多。我的意思是，它们无疑比治愈癌症等事情更有价值，但不仅如此。”

Ashish Vaswani认为让世界变得更“聪明”，就是指——如何去获得来自于世界的反馈，我们能否实现多任务、多线的并行。“如果你真的想构建这样一个模型，帮助我们设计这样一个模型，这是一种非常好的方式。”他说。

尽管其他嘉宾亦有共鸣，但Aidan Gomez认为大家对于“这一改变会在何时发生”持有不同的看法，“人们对于它是否真的会发生也各有立场，但无一例外，大家都渴望看到进步，好像我们每个人的内心都住着一个小小的科学家，都想看到事情变得更好！”

在讨论中，Llion Jones还提出了一个观点：要想让AI真正向前迈进，超越当前的技术模型，不仅仅是做得更好那么简单，“你得做到显著的优秀，让人一看就知道。”在他看来，尽管技术上可能有更先进的模型存在，但当前的进展似乎还是停留在了原点。

Aidan Gomez对此表示认同，他认为Transformer之所以受到追捧，不单单是因为它本身的优势，更因为人们对它的热情。“两者缺一不可。”他解释道，“如果你没能同时抓住这两点，就很难推动整个社区前进。如果想要促成从一种架构向另一种架构的转变，你确实需要拿出一些能够激发大家兴趣的东西。”

三、“你不会希望错过未来十年”

那么，生成式AI到底意味着什么？

黄仁勋在现场分享道：“生成式AI，是一种全新的软件，它也能够创造软件，它还依赖于众多科学家的共同努力。想象一下，你给AI‘原材料’——数据，让它们进入一栋‘建筑’——我们称之为GPU，它就能输出神奇的结果。它正在重塑一切，我们正在见证AI工厂的诞生。”

圆桌对话结束后，黄仁勋特意拿出DGX-1——一款专为深度学习和AI研究设计的高性能计算平台，送给了Ashish Vaswani，DGX-1上面写着一句话“You transformed the world”（你改变了世界）。

黄仁勋（左）与Ashish Vaswani（右），图片来源：英伟达GTC

这像是一次call back。2016年，黄仁勋向OpenAI捐赠了首台DGX-1，当时接收这一礼物的是——埃隆·马斯克（Elon Musk）。

黄仁勋向OpenAI捐赠DGX-1，图片来源：马斯克社交媒体账号

黄仁勋在DGX-1上写着：

To Elon & the OpenAI Team! To the future of computing and humanity. I present you the World’s First DGX-1!

翻译过来就是：致埃隆和OpenAI团队！致计算和人类的未来。我为你们呈上世界上首台DGX-1！

曾经的“Transformer论文八子”，如今都成为了独当一面的“狠角色”，他们每个人都是在Google成长，又先后从Google离开，大家见证了“Transformer Mafia”（致敬“PayPal Mafia”）的诞生，也看到了他们在硅谷中开枝散叶、生生不息。

“你不会希望错过未来十年。”黄仁勋说。

本文来自微信公众号：甲子光年（ID：jazzyear），作者：苏霍伊、刘杨楠，编辑：甲小姐、王博

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

赔了 35 亿！苹果中国大败局

Previous 2024年3月21日 14:17

奥特曼回应一切：GPT-5、董事会宫斗、Ilya看到了什么

Next 2024年3月21日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

黄仁勋对话Transformer论文的七位作者，都说了啥？

相关推荐