当吃豆人面临一边有豆子、一边有鬼的情况,
猕猴会先吃豆子,
还是先躲鬼呢?
大家好,我是来自中国科学院脑科学与智能技术卓越创新中心的杨天明。从我们单位的名字,大家就可以猜到我们科研工作主要是两方面:一方面是研究大脑,另一方面是研究智能技术,也就是我们说的AI。
我今天主要想跟大家分享的是与脑科学有关的这一部分,特别我们的大脑是怎么做一些复杂决策的。
我们每天都会做出各种各样的决策,有些比较简单,有些会非常复杂,需要考虑各种各样的因素,综合在一起才能得到一个好的答案。而我们关心的就是这样的问题——在这个过程中,我们的大脑是怎么做的。
为什么要让猕猴玩游戏?
我们在实验室里面是怎么研究这个问题的呢?
现在游戏已经相当普遍了,我们在玩游戏的时候,同样需要不停地做各种各样的决定,并且要把很多的因素综合在一起去考虑,因此我们可以把游戏作为我们研究决策的一个工具。
游戏还有一个有意思的地方是,它其实在很大程度上是反映现实生活的,游戏当中的逻辑机制,跟我们现实的真实的物理世界是相通的。所以我们在游戏当中做的抉择,也可以反映我们在现实生活当中是怎么去做决定的。
游戏最大的一个好处是什么呢?它完全是我们可控的,因为游戏是人编写的,我们完全可以控制游戏里面出现什么,游戏当中的规则是什么,如果玩家做了什么事情,我可以给他什么样的奖励或者惩罚。所以通过游戏,就可以非常定量地去研究我们是怎么来做决策的。
那在研究决策的时候,是不是简单地把一些人拉过来研究他们怎么玩游戏就可以了?其实我们还要通过动物来研究,我们选取的动物是猕猴,也是大家在动物园里面最有可能看到的一种猴子。
▲ 猕猴 图片来自:Wikipedia
为什么会用猕猴呢?一方面,猕猴是一种非常聪明的动物,它可以完成很多人类那些复杂的行为。另一方面,它在进化上的亲缘关系和人是非常相近的,它的大脑和人也很相似,所以我们研究猕猴所得到的很多结论可以拓展到人身上。
可能有些人就会问,我知道还有一些动物,比方说黑猩猩更聪明,跟人更像,那我们为什么不研究黑猩猩呢?但问题是黑猩猩这样的猿猴是珍稀保护动物,伦理上不允许拿它们做实验,所以在学术界可以用来做实验的最聪明的动物就是猕猴。
我们用猕猴做实验的一个主要目的,是因为我们想知道它们玩游戏的时候做了什么样的事情,大脑发生了什么样的变化,哪些脑区、哪些神经元在帮助猕猴做决策。
而记录神经元活性的这些技术手段,现在只有在猕猴和其他动物上面是可以用到的,在人上面受到很大的限制。所以,我们不得不选用猕猴来代替人做这个研究。
训练全世界最聪明的会玩游戏的猴子
那接下来,我们就得去找一个同时适合猕猴和人来玩的游戏,才可以做对比研究。
我们玩的游戏有很多对猕猴来说不是很适合,主要原因是因为猕猴生活的自然环境跟人还是很不一样的。比方说,一个拿枪打怪物的射击类游戏,射击这个概念对猕猴来说就非常陌生。如果你去告诉猕猴,开枪会有一个子弹飞出去打中一个怪物,这对猕猴来说就非常难理解。
什么样的游戏对猕猴来说可以学习呢?我们经过很长时间的思考和尝试,最后选取了一个叫做《吃豆人》的游戏。这个游戏在上世纪80年代几乎是全世界最流行的游戏了。
▲ 《吃豆人》游戏规则
在这个游戏当中,猴子或者人要通过一个游戏的手柄去控制吃豆人——就是这个黄色的,有个大嘴巴的家伙——把地图当中的各种豆子全吃完,就可以获得胜利。在地图当中有小豆子,还有一种大豆子。大豆子有一个特殊的功能,它可以把地图当中的鬼变成蓝颜色的。正常的鬼如果撞上游戏就结束了,但是一旦这鬼变成蓝颜色之后,你就可以把这鬼吃掉,还可以获得奖励。
人玩这个游戏得到的奖励就是分数,你玩得越好,分数越高。而猴子玩游戏,我们就会给它一些美味的果汁作为奖励。这样它们就会有动力来玩这个游戏。
接下来,我给大家看一个小视频。在这个录屏里面是一只猴子在玩游戏。为了帮助大家了解猴子在玩游戏的时候可能在思考什么,我还在这屏幕上画了一个小白点,这个小白点就代表这个猴子眼睛注视的位置。我们常说“眼睛是心灵的窗户”,通过了解猴子在游戏过程当中看什么,可以帮助我们知道它是怎么想的,怎么决策的。
我们可以看到,刚开始的时候,猴子在控制这个吃豆人,不停地在这个地图里面走来走去吃豆子。它偶然吃了一个大豆子让鬼变成蓝色了,但是很快鬼又变成正常状态,它就要去躲鬼。但它有时候可以预知到这个鬼是这样走的,所以它知道鬼不会马上转弯,甚至还可以去跟着鬼。吃到一个大豆子之后,它发现这个鬼变成蓝颜色,就会马上去把蓝颜色的鬼吃掉,它就可以获得更多的奖励。
我可能作为一个游戏主播不是特别专业,但是大家可以从这个例子当中看到猕猴玩这个游戏还是非常好的。
可能大家会非常好奇,这个猕猴又不会说话,你是怎么教它玩游戏的呢?如果我把一个游戏机放在猴子面前,它自己就会玩吗?
那肯定不是的。在猴子的世界当中从来没有游戏机,它看到一个游戏手柄,根本都不知道是什么,连碰都不会去碰它。
所以我们要训练猴子玩游戏,就得从最简单的开始,一步一步地诱导它。比方说一开始我们这游戏版本就是一个横着的非常小的迷宫,猴子要做的事情就是把手柄拨到右边去吃豆子,拨到左边的话,它会撞上鬼,会死掉,那么它就应该知道它不要撞上鬼。
这可能在大家看来是非常无聊而且非常简单的一件事情,但对猴子来说,一开始它要学会也得花一点时间。就比方说你把手柄放在那儿,它不会去抓手柄,也不知道手柄为什么就会和屏幕上面的吃豆人给关联在一起了。所以在它没有这些概念的情况下,我们要琢磨怎么去教它。
做这个实验的同学一开始真的是手把手——用他们的手抓着猴子的手,按在这个摇杆上面去拨动摇杆。再教会猴子把摇杆拨到这边,它就有果汁喝,拨到那边它就没有果汁喝,这样猴子才会有一个初步的概念。
那么等猴子学会了摇杆之后,我们把这个游戏稍微加一点难度,现在它要转个弯。它学会之后,我们再把这个迷宫变成一个方形的环形,它可以在这个迷宫里面走来走去。同时我们把蓝色的鬼加上,这样它就知道蓝色的鬼是什么样。就这样一步一步,我们通过诱导的方式慢慢地教会猴子来玩这个游戏。
我们在训练第一只猴子的时候,因为没有经验,所以花了差不多有一年的时间才教会猴子玩这个游戏。但后来我们慢慢有了经验,知道怎么去引导猴子玩游戏,所以后来的猴子大概只花两三个月就可以学会。
通过这个尝试,现在我们的实验室有全世界最聪明的可以玩游戏的猴子。
我刚才已经给大家展示了猴子会玩游戏的视频,但是我们还需要量化一下这个猴子是不是真的会玩游戏。
我们首先看一下它对一些基本游戏规则的理解。这个游戏主要目的是要把这个迷宫当中的小豆子都吃完,所以我们发现当猴子在一个十字交叉路口的时候,有超过60%的概率是往小豆子最多的那个方向走的,这说明它的确知道哪边小豆子多,哪边奖励多,它应该往哪边走。
那么如果有一侧有鬼,它就有超过80%的时候往鬼的反方向去走。但如果这个鬼是蓝颜色,它就有超过90%的概率去吃这个鬼。因为在这游戏中吃掉蓝色的鬼奖励是很多的,所以猕猴它非常喜欢去抓这个蓝鬼。
通过这些分析,我们就知道这只猴子对基本的游戏规则是理解的。
猕猴玩游戏有哪些取胜策略?
但在真实的游戏过程中,我们不会把这些元素拆分开来看给猴子看,它要在游戏的动态过程当中去做实时的抉择。
在有些情况下,比方说一边有豆子、一边有鬼,它是应该先吃豆子还是先躲鬼?这个问题非常复杂,因为如果要把所有这些情况排列组合考虑下来,有非常多的可能性,以至于像微软公司设计的AI玩这个游戏都不能玩得很好。
那么我们发现,猕猴其实并没有把所有的东西都考虑进去,相反地,它会采用一个简化的策略,比方说猴子它现在定的策略是吃豆子,它就会忽略迷宫里面现在鬼在哪里,它就只考虑豆子,豆子哪边多就往哪边走,这样决策就非常简单了。
还有时候的策略就是躲鬼,在躲鬼的时候,它也不管豆子在哪里,反正看见鬼从哪边过来,它就往反方向走。那么还有抓鬼这样的策略。
所以猴子在玩游戏的时候,经常是先确定自己一个大的策略是什么,然后在这个大策略框架下,再决定它是往上下左右哪个方向走,这样就方便很多了。
而且我们进一步分析发现,猴子它还会把这些策略给串联在一起,形成组合策略。比方说猎杀策略,猴子控制吃豆人先去把大豆子吃掉,然后马上转向去抓蓝颜色的鬼,得到更多的奖励。所以在这个组合策略里面,它把这两个过程串在一起来做,就可以得到很高的分数。
这个策略可能大家看起来非常自然,我自己玩游戏的时候也很容易想到,但猴子它非常聪明,还会采取一些我之前没有想到过的,它自己想出来的策略。在这个例子里面可以看到,它学会了一个叫做“自杀”的组合策略,你可以看到它是怎么回事。
一开始在上面还有一些小豆子,它去把这些小豆子清掉,你可以看见它很熟练地躲避鬼,吃掉小豆子。清完之后,按照正常的思路,它应该往下走对吧?但它没有,它主动去“自杀”。开始我们觉得有点不可思议,但后来想明白它为什么会这么做。
因为它“自杀”之后,游戏会开始下一盘,重新开始后,吃豆人的定位是从盘面的下面开始,它就不需要从上面费很大的力气下来,可以从下面开始把下面的豆子吃掉。所以“自杀”反而是一个非常高效的、可以获得奖励的组合策略。
在这个策略里面,它结合了抓鬼“自杀”,然后再吃豆子这样的组合。
经过很多的定量分析,我们可以把猕猴的策略用这种层级化的方式来表示。猕猴在玩游戏的时候,会先根据盘面来制定策略,比方说高级的组合策略。
组合策略定下来之后,它就会按照这个顺序一个一个去决定当前的策略是什么;当前的策略决定之后,它就可以把上下左右比较简单的具体的运动抉择给定下来。
我们研究了三只猴子,发现猴子普遍是这样的。如果我们把它所有的策略画出来,就会发现它有五种基本策略。某些基本策略可以串联在一起,甚至还可以把三个策略串联在一起,形成组合策略。
然后我们又研究了人,我们想知道人是不是也是这样。我们人类玩家,特别是游戏高手,肯定比猴子要好很多。
人的这个策略数就要比猕猴的要复杂多了,我们人有七种基本的策略,策略和策略之间可以形成一级组合、二级组合,乃至三级,甚至到跨层级的组合策略。
所以整体上来说,策略层次化越复杂的玩家的得分是越高的。有一些志愿者从来没有玩过这个游戏,因此他们的表现不是很好。我们做分析的时候,发现他们的策略数更像猴子,特别简单。所以我们决策的层级关系,其实是可以很好地代表我们解决复杂问题的能力。
大脑究竟是怎么做决策的
我们讲了这么多猴子和我们是如何解决复杂问题的。接下来讲一下我们的大脑里面哪些脑区负责我们的决策。
我们知道,大脑可以分成很多分区。其中我们的前额叶,也就是在我们头上前额位置,它是我们人类高级认知功能的中枢。
相对于猴子来说,我们的前额叶要发达很多。在这个图里可以看到,前额叶几乎占了大脑1/3的面积;它也不是一块铁板,它还可以再继续细分为很多不同功能的子区,其中比较靠后的叫做前运动皮层,它和我们手部的运动直接相关。
我们发现,决定我们在玩游戏的时候是往上走还是往下走这样特别具体的运动抉择,就是由前运动皮层的神经元编码的。在之前,还有人研究发现,如果插一根电极到脑子里面去刺激前额叶皮层的话,还可以改变运动抉择。
但是,负责策略的这个脑区在相对更加靠前的地方,叫背侧前额叶的脑区。我们发现在那里有很多神经元编码了当前的策略,比方说猴子决定是要吃豆子还是躲鬼的策略。
我们刚才还说到有更高级的组合策略,那组合策略在大脑当中哪里编码呢?我们现在还没有一个完整的答案,但我们发现了很多证据,它指向大脑当中一个叫做极前额叶的地方,也就是由大脑最前面的这一部分来编码的。
这个极前额叶也是我们认为人类和猴子与其他动物有巨大差别的一个关键脑区。在我们的决策过程当中,我们存在一个从上到下,从高级策略到低级运动抉择的这个分层。在我们大脑的前额叶也存在一个从前到后,前面的脑区负责更高级的决策,后面的脑区负责相对低级的抉择水平。
这个研究给我们很多启示,一方面它告诉我们,如果我们面对一个复杂的问题可以怎么去解决——我们可以采用策略去简化决策。
另一方面,简化问题决策分层的能力,其实跟我们要解决复杂问题的能力是密切相关的:一个人或者一个动物解决问题的能力越强,就越能够把一个复杂问题分成很多简单的问题来做。
同时,我们还发现我们的大脑当中也存在一个对应的层级化的结构,来帮助我们进行决策。
那么,我们在这些大脑中所做的抉择研究在现实里有没有应用呢?
在生活当中,我们可能会接触到一些不幸的精神类疾病的患者,比方说强迫症、抑郁症或者药物成瘾。这些疾病有一个特点,就是这些患者往往不能理性地做出抉择。
比方明知道这个东西不好,他还是会去选择它。明知道这个事情是好的,但他就是做不了,所以他们的决策系统有很大的问题。我们的研究就有希望帮助这些患者进行诊断或者治疗。
同时,近年来人工智能的发展特别迅速,尤其今年(2023年)可以说是人工智能爆发年,我们可能都听说过ChatGPT这样的系统,它可以跟人对话,让我们看到通用人工智能的希望。
但不管怎么说,现在人工智能还有很大的缺点,比方说它的能耗特别大,它需要花费巨大的训练成本,而且它也不够灵活,不能适用于我们日常生活当中的各种各样的场景。所以我们在人当中做的这些研究,也是希望未来能够融入到人工智能的开发当中去,为我们研发更好的、更像人的人工智能作出贡献。
我也希望我的演讲能给大家带来一些启发,希望未来大家能够共同加入到我们的研究当中,探索大脑的奥秘、探索AI,创造更好的未来。
谢谢大家!
本文经中国科学院格致论道公众号(SELFtalks)授权刊登。格致论道是中国科学院全力推出的科学文化演讲,由中国科学院计算机网络信息中心和中国科学院网络安全与信息化办公室主办,中国科普博览(中国科学院科普云平台)提供技术支持。