对于研究者而言,预设一个判断、押注正确的方向,往往会决定学术成就的高远。当一切尚未验证时,多少需要朴素的直觉来支撑,而朴素直觉的背后,往往是一些关于是与非、能与否的底层信仰。
在人工智能领域,底层信仰的作用在被放大。比如,此刻人工智能有一些根本性的研究底色:Scaling law是否是唯一至上的纲领?
大模型的Scaling law最早由OpenAI在2020年的一篇论文中提出,其内涵是,大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关,而与模型的具体结构(层数/深度/宽度)基本无关。
放眼全球,很多人都将Scaling law奉为圭臬,但聚光灯外也不乏一些质疑Scaling law的“少数派”。田渊栋就是其中之一。
“虽然现在Scaling law很火,但一味跟风,亦步亦趋,并不是我的风格。”田渊栋告诉“甲子光年”。
田渊栋博士毕业于卡耐基梅隆大学机器人系,如今是硅谷小有名气的华人科学家。今年是田渊栋在Meta的第十年。他任Meta FAIR研究员、高级经理,也曾获2021年国际机器学习大会(ICML)杰出论文奖提名,及2013年国际计算机视觉大会(ICCV)马尔奖提名。田渊栋的“组长”是图灵奖得主杨立昆(Yann LeCun)。
2013~2014年,田渊栋曾在Google无人驾驶团队任软件工程师,这里种下了他对Scaling law怀疑的种子。“我画过一张图,一开始数据量越大,模型performace越好,但模型离人类越近就越难获得新的数据,模型就越来越难以改进,最后总会有些corner case解决不了,这是Data driven(数据驱动)最大的问题。”
2017年,田渊栋开始尝试“其他东西”,瞄准AI的可解释性。
2019年,OpenAI联合创始人、首席科学家伊利亚·苏茨克维(Ilya Sutskever)找到田渊栋,希望他加入OpenAI。“他说他要做语言模型,我说我要尝试理解神经网络模型的工作原理,所以就没去。总之我觉得我这条路会一直走下去。”
五年后的今天,即使在大模型将Scaling law推上神坛的当下,他依然坚信,Scaling law也许是对的,但不会是全部,他告诉“甲子光年”:“Scaling law本身代表一个非常悲观的未来。”
他所押注的是一条看似风险更大的路:“我们最终能理解模型到底是如何被训练出来的。”
田渊栋最近的工作表排得非常密集,譬如在4月29日刚刚参与发表了AdvPrompter,可以两秒内生成针对大语言模型的对抗性攻击,这样生成新的数据集并且微调大模型,能够进一步增强模型的鲁棒性。
AdvPrompter:面向大语言模型的快速自适应对抗性提示
本文,甲小姐在硅谷对话田渊栋。
一、谈趋势:“技术的最高境界是变成水和空气”
从计算的角度来说,交互一定要基于生成。
甲小姐:黄仁勋在今年GTC大会上说“The future is generative.(未来是生成的。)”你同意他的观点吗?
田渊栋:他说的有道理。
首先从技术上看,模型数据“从哪来”“怎么训练”是未来限制AI发展的关键问题。如果不是生成式模型,需要找人一直标数据,人是无法把现实世界所有数据标完的。生成式的好处是不用找人标数据,直接生成缺失的部分,这套方法已经被证明取得成功了。
第二,从人机交互方式来看,搜索不是最自然的方式。技术的最高境界是变成水和空气,你感觉不到它的存在,你不用知道它的原理,就能获得技术带来的便利。例如我们拧开水龙头就有自来水。AI也一样,人与人交互最简单的方法就是聊天,对话比搜索更原始,也更能满足根植于人类内心深处的交流欲望。
甲小姐:但交互不一定要生成,生成式AI也不一定需要交互。我们也可以把现在的搜索框换成对话框,但背后支撑对话的不是生成式AI,而是搜索引擎?
田渊栋:搜索是后天习得的,但对话式交互已经经过了几万年的演化,人类从出生开始就学习说话,这种方式对人类的“吸力”特别强。
如果之后出现互动小说、互动视频甚至是可互动的三维世界,就会将生成式AI和交互百分之百结合起来。每个人都生活在一个平行世界,通过对话就能感受不同体验,这时的人机交互就回到了人类最原始的状态,人类一定会陷进去。
甲小姐:对人类有很强“吸力”的只是可交互的世界——这个世界一定是生成的吗?
田渊栋:你这个问题很好。“可交互”与“生成式”确实是两个独立的概念。但你和别人交互一定要有接口,接口一定是高维的、丰富的,越接近人类感官越好,所以它一定是生成的。
甲小姐:不一定。我们做个类比,生成式的世界更像一个开放世界游戏,每个人都通过各类交互在开放世界体验不同的故事线。而在剧本杀里玩家也可以在颗粒度很细的、高维的平行世界探索,收获不同体验,但剧本杀不是生成式的。
田渊栋:如果是后者,就需要很多很多人来创作剧本。从计算的角度来说,交互一定要基于生成,否则就需要无限的资源、人力去标数据或创作内容。
甲小姐:能否给“生成式”下一个定义?
田渊栋:生成式和数据库是对应的。数据库里是大量静态的、固定的,已经被检验过真实性的数据,但数据库无法用有限的数据来应对人类世界无穷的多样性需求,而生成式能解决这个问题。从供给的视角看,数据库和生成式是一段连续光谱的两端——一端是由人类提供所有数据的世界;另一端是所有数据交由AI生成的世界。
甲小姐:合成数据算哪端?
田渊栋:这就是我说的“连续光谱”的含义,中间可以有各种组合,比如说50%由人类提供,50%由AI生成,或者三七开都是可以的。
“生成”与“非生成”的本质区别在于是否需要人类输入很多数据,输入的内容是不是需要大量重复劳动?是不是能做到教孩子那样,指点一下就能举一反三?比如要用3D引擎搭建一个虚拟三维世界,就需要人类把真实世界中的每样东西都进行三维扫描,然后放进去,这就需要大量有经验的高素质工程师;但一个厉害的雕塑师,并不需要看过、摸过世界上所有的物件,就可以把已有的物品雕刻得惟妙惟肖,也可以创造出新的从未见过的物件出来。
生成式AI其实给人的就是这种期许。只要有足够的数据,通过输入prompt,模型会自己生成一个未知场景给人体验,这就减少了工程师的消耗。工程师不可能24小时工作,但AI可以,而且复制一个AI很容易,但复制工程师非常难,生成式AI会让生产力大幅提升。现在的问题是,好的小说、剧本非常少,如果AI能够生成高质量的内容,很多问题就迎刃而解了。
二、谈判断:“Scaling law代表非常悲观的未来”
人类永远只会想自己沿着这条分叉走能拿多少利益,很难会主动开辟全新的分叉,一定会有一个短视的阶段。只有在某个方向撞墙之后,大家才会发现,Scaling law是有问题的,才会往回走。
甲小姐:很多人都将Scaling law奉为圭臬,你似乎不是它的拥趸?
田渊栋:我认为Scaling law离真正的Data efficiency(数据效率)的AGI,至少还有2-3个break through。
Scaling law也许是对的,但不会是全部,因为Scaling law本身代表一个非常悲观的未来。Scaling law的本质是,用指数级的数据增长,来获得几个点的收益。
最终人类世界可能会有很多长尾需求,需要人类的快速反应能力去解决,这些场景的数据本身也很少,LLM拿不到。Scaling law发展到最后,可能每个人都站在一个“数据孤岛”上,孤岛里的数据完全属于每个人自己,而且每时每刻都不停产生。专家学会和AI融合,把自己变得非常强,AI也代替不了他。
甲小姐:做过自动驾驶相关的人似乎都对Scaling law非常悲观,你不完全相信Scaling law跟你做无人车的经历有关吗?
田渊栋:是有关系。为什么我后来不做自动驾驶了?因为我觉得data driven模式有很多问题。我画过一张图,一开始数据量越大,模型performace越好,但模型离人类越近就越难获得新的数据,模型就越来越难以改进,最后总会有些corner case解决不了,这是最大的问题。而且车比LLM更难,因为在车上模型表现必须达到100分才能上路,99分就相当于0分。我当时就觉得很难,搞不清,所以第一个跑了。
甲小姐:为什么很多人如今笃信Scaling law?
田渊栋:这是一个范式转变。之前NLP领域有一个笑话,每开除一个语言学家,NLP模型的性能都会上升。过去很多NLP模型训练规则是人类从数据中总结出来,但那些无法用语言或符号清晰定义的问题,机器或许会总结得更好。
Scaling law之后一定会有新的技术分叉,但如果当前的技术分叉没走完,大多数人是不会更换路线的。人类永远只会想自己沿已有的分叉走能拿多少利益,很难主动开辟全新的分叉,一定会有一个短视的阶段。只有在某个方向撞墙之后,大家才会发现Scaling law是有问题的,才会往回走。
甲小姐:今天人们会把大模型定义为“基础设施”,它是否会像高速公路等基础设施一样,只需一次性投入,OpenAI通过Scaling law把人类有史以来大部分数据都装进大模型,后续人们只需要不断填补新数据,继续scale up就好。
田渊栋:模型跟高速公路不一样。
高速公路的建设有标准流程,但是训练大模型没有标准,很多东西都要调。每一次训练都可能有新的训练方式和策略,例如到底是把以前的数据拿过来,再放入一些新数据;还是把数据打散重组,每个bench放入不同的数据?不同的数据策略得到的训练结果不同。
甲小姐:为什么不在之前的预训练结果上继续训练?
田渊栋:继续训练会有问题。也许上一个模型已经被旧数据训练坏了,比如有些偏见,或者对一些事件有错误理解,这些问题很难用新数据把它扳过来,更好的方式是从头开始预训练。如果只是微调,那从模型开始就可以。
甲小姐:微调无法把一个坏模型变成好模型吗?
田渊栋:可以这样做,但没有特别成功的例子。因为预训练跟微调所需的计算资源差距太大了,预训练要用成千上万块卡,微调只用几块卡,你不能指望靠微调把一个坏模型变好。
除非有一天我们对训练过程有更本质的理解,从本质上解决梯度下降效率低下的问题,从而找到新方法。现在模型训练过程仍是一个“黑盒”,我们知道模型在做加减乘除,但并不知道它做加减乘除时,是否在运行某个高层次的算法去寻找数据的内在规律。
甲小姐:这个黑盒似乎很难完全透明,毕竟人可以把大脑做成非常细颗粒度的切片,却无法理解大脑的智慧。
田渊栋:搞明白大脑的运行机制,难度是另外一个级别了,在AI模型的基础上还要再加几层复杂度,很多生物指标的测量都很难,而且会有很多干扰因素,大脑还要考虑低能耗和慢上几十万倍的通信和响应速度(毫秒级对应硅基是纳秒级),抵御外来入侵者的免疫系统,冗余设计,几亿年的“祖传屎山”等等。所以生物学和脑科学真是太难了,需要数十年如一日,几代人前赴后继的努力,我非常敬佩他们。
甲小姐:今年OpenAI推出Sora,点燃了一波关于多模态的讨论。有人认为语言才是主轴,多模态是集体跑偏,比如百川智能王小川;也有人认为视频才是终局,比如出门问问李志飞。你怎么看这些争论?
田渊栋:应用方面,多模态应该是主流。但在基础研究方面,引入多模态后并没有看到模型有突破性表现,因为语言、代码等结构化数据的信息密度其实是最高的。
甲小姐:OpenAI将Sora定义为“世界模拟器”,业内很多人对此也有质疑,比如Yann LeCun就认为Sora不是世界模型。你认同吗?
田渊栋:对于世界模型的概念,每个人都有不同的看法。我对“世界模型”的定义是:只要能预测未来的具体形态,都是世界模型。Sora是世界模型,它生成的每一帧都是对世界的预测,可以从一开始预测后面,也可以从最后反推前面。
甲小姐:站在行业研究者的角度,你认为2024年可能会发生哪些重要事件?
田渊栋:GPT-5的发布肯定值得关注,要看它的工作效率是否更接近真人。
三、谈选择:“还是要做一些独一无二的工作”
“像不像人”和“有没有像人一样高的效率”是两回事。
甲小姐:你现在的核心研究方向是什么?
田渊栋:虽然现在Scaling law很火,但一味跟风亦步亦趋,并不是我的风格。宽泛地看,我的研究方向目前属于LLM,像LLM快速推理和高效训练,以及如何提高LLM的决策规划能力等等。但从根本上来说,我是在做理解模型工作原理的基础研究,是一个偏理论的方向,从这些研究出发,就有很多对模型工作方式的理解,然后这些思路就可以用来提高模型的性能和效果。
甲小姐:你从什么时候开始做这件事?现在有明显进展吗?
田渊栋:我从2017年开始做,现在慢慢开始有些进展,对神经网络或Transformer的工作原理已经有一定理解,比如说Transformer如何从数据中自动学习出结构,又比如说在决策方面如何混合已有的决策方案和现在的神经网络方法。这些都可以继续往下挖。
其实Ilya 2019年找过我,希望我加入OpenAI,当时GPT-3还没出来,是OpenAI混得最惨的时候。他说他要做语言模型,我说我要尝试理解神经网络模型的工作原理,所以就没去。总之我觉得我这条路会一直走下去。
甲小姐:你有团队吗?
田渊栋:我有很多单人工作,但也有团队。我的团队不只做understanding(理解)的理论研究,还有很多强application(应用)的工作。
甲小姐:你现在做的事情跟LLaMA关系大吗?
田渊栋:LLaMA属于刚成立的GenAI Team,我们属于FAIR,现在有600多人,是一个比较独立的研究组。LLaMA最早是FAIR做的,后来公司就考虑成立一个团队专门迭代LLaMA,因为大模型是相当重要的。之后有一些工作像AdvPrompter有比较大的应用价值,应该会和LLaMA这边合作。
甲小姐:LLaMA或Gemini这种明星项目,会把其他部门的人都吸引过去吗?
田渊栋:那不好说,有些人可能想转,有些人反而不想转。大团队有好处也有坏处,好处是有更多资源,坏处是你的贡献可能只有千分之一。Gemini有几百个核心贡献者,多了就没有什么意义了,你可能只负责改改数据,洗洗数据,或者写写脚本什么的。还是那句话,每个人都有自己独一无二的地方,就看大家工作的目的是为什么了。
甲小姐:你会直接向Yann LeCun汇报吗?
田渊栋:Yann现在是VP&IC,不管人。他还是主要做技术上的领导,在各种场合发表言论,以这种方式影响大家。
甲小姐:你认同他对AI发表的各种言论吗?
田渊栋:有些我相当认同。比如他说“LLM不是未来,还有很多新的架构需要调整”,这我觉得是对的。现在LLM的方式还是有问题,它的学习效率没有人那么高。你可以说LLM就是AGI,但AGI就是拿一堆数据堆一个很强的model吗?不一定。
现在人类90%的工作都是重复性劳动,LLM可以通过大量数据完成,剩下10%的个性化工作数据非常少,LLM做不了,但人类还是能很快完成。我认为AGI的定义需要修改,AI能用和人类同样的效率,甚至更高的效率学习新知识,完成一些从未见过的工作。但不管如何GPT-4这样水平的AI已经能很大程度影响这个世界了。
甲小姐:有种观点认为,AGI没必要像人。
田渊栋:“像不像人”和“有没有像人一样高的效率”是两回事。如果AI非常高效,它不像人也可以。只是从效率上看,现在的模型还远远达不到人类水平。人一辈子能看多少东西?但人的生成能力远远强于AI模型,这是AI最大的问题。
甲小姐:你的观点似乎和LeCun一脉相承。
田渊栋:有点接近吧,他也在不停寻找Scaling law之外的路径。这就是硅谷有意思的地方,每个人都有不同的想法,也有人彼此竞争,但没人知道到底什么是对的。
四、谈信仰:“我相信基于神经网络的AI模型是可解释的”
硅谷其实没有什么主流、非主流之分,因为每个人都会有自己的方法,并不是所有人都要学OpenAI,如果都和OpenAI一样,那我就叫OpenAI了。
甲小姐:OpenAI已经在Scaling law的路径上取得很大进展,但你做的方向仍然前路未卜,这会让你有种无力感吗?
田渊栋:还好,硅谷每个人都有自己的bet(押注),都有自己对世界的理解。
甲小姐:你的bet是什么?
田渊栋:我相信基于神经网络的AI模型是可解释的,我们最终能理解模型到底是如何被训练出来的。
甲小姐:理解到什么程度算“理解”?
田渊栋:我们要理解神经网络学习的动力学机制,如何从大量数据中学到它们的结构,什么样的结构是可以被神经网络学到的,什么样的结构不可以,需要多少样本,效率有多高,并用数学的方式把它的整个学习过程描述出来,并在此基础上找到更好的训练神经网络方法。
甲小姐:你的bet似乎有些“非主流”。
田渊栋:我是非主流bet,但这没关系。硅谷其实没有什么主流、非主流之分,因为每个人都会有自己的方法,并不是所有人都要学OpenAI,也许下一次科技革命的驱动就是从这些非主流开始的。另外我们也有很多LLM应用方面的工作有立即可用的价值,所以就算神经网络真的无法解释,人类除了拼命往里面塞数据、堆算力之外没有别的办法,那至少还是有饭吃的。
甲小姐:对于想要入局AI的人来说,是不是要像大航海时代一样,先下一个bet,再扬帆起航?
田渊栋:如果你想做得很好的话,一定要有自己的bet。如果你不make a bet,你能做的就是follow other people,很难走得更远。有Bet的好处在于,你可以一辈子一直走下去,人生不会觉得无聊。
甲小姐:OpenAI的成功会让你怀疑自己的bet吗?
田渊栋:我惊讶于他们做得挺好,可能会适当调整下自己的策略,但是我依然认为自己是正确的。
甲小姐:你曾在谷歌无人车团队工作1年多,加入Facebook也有近十年,应该有很多VC怂恿你创业吧。
田渊栋:是有很多。
甲小姐:你不为所动?
田渊栋:我喜欢做一些比较厚的东西,更适合在公司做研究。另外,我家里人也比较保守,会有些顾虑。
甲小姐:你的方向很独特,跟你竞争的人不会特别多。
田渊栋:问题在于商业模式怎么做。
甲小姐:OpenAI也没有商业模式。
田渊栋:但OpenAI也只有一个。
我比较清楚自己的长处和短处。我不太擅长从1到100的问题,而比较擅长从0到1。从0到1的事情我会在研究部门做。去年确实也有VC联系我,想要投资做AI生成电影。我当时真的有点动心,因为我自己也写科幻小说,当然希望自己的小说能够“啪”一下变成电影,但还是没走。我觉得要做从1到100的事情,世界上有很多很多人做得比我好得多,代码写得比我快,头脑比我灵活,相比之下,我自己没有太大优势。
当然如果以后条件发生变化,走不同的路也是有可能的。
五、谈终局:“每个人都找到独一无二的方式去探索世界”
我们应该放弃这种执念,认为大脑是人类的控制器,其实不是这样子。我们身体的每一部分都对我们的行为表现有一票投票权,只是以后AI也会有一票而已。
甲小姐:当AI解决了人类社会99%的问题,人类应该如何自处?
田渊栋:最终的结局应该是,每个人都找到独一无二的方式去探索世界。
甲小姐:可能到时候人类已经没有动力探索世界了。
田渊栋:没有动力就可以躺平,没问题。社会应该为所有人提供躺平选项,只有这样才能让大家的创造力充分释放。
人人都“为五斗米折腰”的结果就是,所有人都有同质化倾向,这对未来发展不利。你跟硅谷的人聊会发现,他们不知道害怕,觉得“我就是要上”“我就是要搞事情”。比如Ilya在谷歌已经很牛X了,但他还是离开Google,白手起家,这都是信念驱动的。
甲小姐:现在国内整体的创业投资风险偏好非常低。
田渊栋:当你“求生存”的时候,所有人都会想怎么赚钱,怎么找到保守的最佳路径,最后的结果就是大家都很同质化,但是未来世界不需要这些。每个人都应该有勇气去走一条别人没走过的路,把这条路上的风雨分享给别人。
甲小姐:当每个人都拥有个性化的世界,这种经验还有意义吗?比如高考秘籍很珍贵,是因为大家都在高考,而不是自己一个人去高考。
田渊栋:别人有再多经验,都不是你的经验。这个世界总有一部分人会渴求自己尚未见过的世界,那些都是AI生成不了的,或AI没有足够的数据实现的。
甲小姐:移动互联网时代我们已经感受到剧烈的信息爆炸,但生成式世界中,所有信息都真假难辨,想要了解世界真相的人可能穷其一生,对世界的理解都不到万分之一,从而产生巨大的空虚感。
田渊栋:人类穷尽一生也无法完全理解世界,这本来就是事实。但最后人类会和AI结合的。
甲小姐:AI不一定需要人类,现在模型已经可以自己训练自己了。
田渊栋:这就涉及到personalization的问题。别人做得再好都是别人的,我做得再差也是我自己的。人类可以和别人分享自己的思想。而且AI也需要人,因为它需要人来提供数据。最终每个人或许都会和AI拼起来,每个人都equip with AI,成为一个AI与人的复合体,大家还是一样的个体。
甲小姐:人与AI的结合中,谁的意识会占主导?
田渊栋:我觉得自我意识起源于人类大脑对自己的建模。从进化上来看,这个很有必要。因为人要根据周围的环境,及自身的状态,来决定自己的行为。比如看到一只老虎,是要逃跑,还是要跟它搏斗?身体素质好,有趁手的武器,再加上周围有帮手,可能就会选择搏斗;但要是孤身一人身上有伤,那肯定得逃。这个就要有对自身的建模,才能有下一步的行动。做得好就活下来了,做不好就被自然界淘汰了。
久而久之,这个“自我”的模型就会慢慢扩展,也慢慢细化。如果一件物品和人本身的联系足够紧密,那么自我模型在计算的时候,也就会自动把它纳入在内,这个在武侠小说里就是所谓“人剑合一”了。
如果AI和人类完全融合,可能会形成一个整体意识,你分不清某个念头到底是AI产生的还是你自己产生的,也不会有一方控制另一方的问题。我们现在手机已经算是每个人的一个器官了,手机给了一个弹出信息,你据此决策,那么是手机控制了你么?现在也有研究发现人体肠道菌群会改变人的情绪,那么,是菌群控制了你么?
所以,我们应该放弃“大脑是人类的控制器”的执念,其实不是这样子。我们身体的每一部分都对我们的行为表现有一票投票权,只是以后接入的AI也会有一票而已。当然,现在的AI还只是工具。
本文来自微信公众号:甲子光年 (ID:jazzyear),作者:甲小姐、刘杨楠