21世纪被誉为信息时代,信息已经成为了人们赖以生存并与世界交互的必要工具。但我们真正理解“信息”是什么吗?它推动了时代,但对我们的生活和思维方式又有何实质影响?
著名数学家克劳德·香农(Claude Shannon)提出的信息论,为我们提供了探讨信息量化、存储和传播的理论框架。按照信息论的观点,信息是一种“线索”,它的关键作用是减少对未知事件的不确定性。如果了解某些事件能帮助我们减少对另一个事件的不确定性,那么这些知识就构成了信息。
例如,初来乍到的员工对公司知之甚少,他对周围同事充满了不确定感。不过,在和同事们约过几次饭后,他对同事们的言行举止有了一些观察,他逐渐开始了解同事们的兴趣爱好、性格特点。这些信息使得同事们不再那么陌生,使得新员工的不确定感大大降低。
在我们的日常生活和人际交流中,信息无处不在,它深刻影响着我们的人际交流和认知过程。对于神经科学家来说,信息论将人类的大脑视为一台信息加工机器,信息就像是神经系统中的基础货币,不同神经元通过电信号和神经化学信号的传递相互交流,这些信息在大脑中不断地被修改和组合,形成了我们的认知和记忆。
那么,电信号和化学信号就是信息吗?
神经科学家们对此也并未形成统一共识[1],用“基础货币”这样的修辞学方式来定义信息,可能还无法全面反映信息的本质。
近年来,信息论领域涌现出一种新的观点:信息并非单一的实体,而是由多种形态构成。这种观点被称为“信息分解”(information decomposition)[2],它试图将信息解构为独特信息(unique information)、冗余信息(redundant information)和协同信息(synergistic information)三大类。这样的分解为理解信息的本质提供了新的视角,有助于我们更综合地认识大脑的信息结构,理解认知加工过程。
原始论文:Luppi, Andrea I., et al. “Information decomposition and the informational architecture of the brain.” Trends in Cognitive Sciences (2024).
一、信息分解:多元的信息
三类信息各有特点,在信息加工过程中扮演着不同的角色。
以视觉信息加工为例,人的视觉系统包含中央视野和边缘视野。其中,边缘视野帮助我们捕捉宽广的环境信息,包括物体的大致位置和模糊的细节。双眼边缘视野中的信息各不相同,属于独特信息。
因为当我们闭上一只眼睛(左眼)时,相应眼睛(左眼)的边缘视野中的信息便会丢失,这时,大脑只能接收到另一只眼睛(右眼)的信息。例如,在驾驶车辆时,边缘视野往往能帮助司机从后视镜察觉到两侧和后方的车辆情况,假如左后方有车正在快速接近,司机左眼突然不舒服闭上了一瞬,那么,司机很有可能因未能及时察觉而面临意外事故。
相较于边缘视野,中央视野是人类视觉范围的中心区域,承载了我们看到的大多数详细信息。对于司机来说,同一车道正前方的车辆同时位于双眼的中央视野内,即使某一瞬间司机闭上了左眼,仅凭右眼他依然能察觉到前方车辆的动态。
这样的信息被称为“冗余信息”。其主要优势在于稳健性,不同来源提供的信息相同,这种过度表征保障人们在任何一处信息源受损时依然能够获得所需的信息。不过,冗余信息的缺点也十分明显,它并没有充分利用大脑所有的信息收集能力。
最后一类信息是协同信息。单眼是无法产生立体视觉的,世界在人的眼中如何变得立体?这有赖于双眼的相互协作,由于双眼在头部的位置不同,看相同物体存在视角的差异。视觉皮层会接收到两幅稍有差异的二维图像信息,根据双眼视差的程度或两幅图像间的差异来判断眼前物体的距离,进而形成了对眼前物体深度的感知,产生了立体感。
在驾驶场景中,双眼协同帮助司机准确判断与前车或障碍物之间的距离,任何一只眼睛受损都会对安全带来威胁。相较于独特信息和冗余信息,协同信息最大的特点是效率,它充分利用了大脑神经系统不同部分之间的交互,实现了1+1>2的效果,在帮助人们处理复杂任务方面具有重要作用。
图片来源:参考文献[2],图1,图中橡果和香蕉是独特信息,矩形是冗余信息,立方体则是协同信息,需要双眼共同作用才能知觉深度
人体作为一种高度复杂的系统,信息分解框架不仅为人们理解信息的结构提供了更细致的视角,在其他系统中也多有应用,如元胞自动机、社会经济数据、人工神经网络等[3]。
二、大脑如何整合信息?
信息整合是神经科学和认知科学中一大基础概念,然而,研究者们对于这一概念却存在两种不同的理解:整合即一体(integration-as-oneness)和整合即协作(integration-as-cooperation)。
一体化观点认为,在分析大脑数据时,假如发现不同脑区的活动存在强相关或同步性,那么,研究者会推测两个脑区是高度整合的。这源于一种直觉:整合的元素会表现得像一个元素。两个元素的活动同步程度越高、表现越相同,它们的整合程度也越高。协作化观点则认为,当不同元素可以相互补偿时,系统的信息处理能力会受益于不同元素间的交互,这种交互即为整合的体现。
从信息分解框架的角度来看,整合实际上是独特信息的反面,一体化对应着冗余信息的概念,而协作化对应着协同信息。然而,传统的神经科学研究往往基于相关性来推测神经系统不同元素间是否存在整合,这种方法难以准确区分一体化和协作化的整合形式。高相关通常暗示着信息的冗余,而低相关复杂得多,可能意味着信息的独特性或协同性。
为了更好地区分冗余和协同,早期研究者开发出协同-冗余指数,来反映系统中协同与冗余的平衡程度。假如系统中的信息总和超过了各个组成部分的贡献总和,那么可以推测系统中存在协同。相反,假如系统各部分的贡献总和更高,那么系统中一定存在冗余。这种方式非常直观,但无法应对协同和冗余同时存在的情形,也无法精确识别协同信息。
与相关法或协同-冗余指数不同,信息分解通过计算系统的转移熵(transfer entropy, TE)来更精确地分析信息加工。例如,如果某个系统中两个脑区的时间序列数据X和Y之间的转移熵数据显示,从X到Y的转移熵高于从Y到X的,那么可以认为X对Y有着明显的“影响”。
以癫痫为例,这是一种大脑功能连接紊乱的现象。传统观点认为患者的大脑信号彼此高度同步,仿佛是一体的,也就是说,大脑不同区域的冗余是癫痫发作的可能成因。
但使用信息分解框架分析癫痫患者的脑电数据,研究者发现,相较于发作前,癫痫发作时患者皮层下区域向皮层区域传递的冗余信息和协同信息都有所增加。更进一步地,分析不同区域的深部电极记录,结果发现,特定皮层下区域向皮层区域传递的独特信息增加可能是引发皮层振荡的主要原因,这为定位癫痫发作区域提供了更直观的证据[4]。
图片来源:参考文献[2],图2:信息分解为认知科学提供了一种统一的框架,图中穿过中心三角区域的每个双向箭头都表示认知科学和神经科学中一组对立的概念,箭头的一端对应信息分解框架中的某一种信息,另一端则混淆了两种信息,如整合(integration)与非整合(disintegration),非整合意味着独特信息,整合则包含冗余和协同两类信息。局部和分化在正文中未提及。对于局部,当某一信息源只包含独特信息,那么,该信息源的所有信息都是局部可获得的,即只能从该信息源获得,相反,当该信息源只携带冗余信息,那么,该信息源的所有信息都是多局部可得的。对于分化,当系统不同部分表现各异,即未表现出一体化时,它们被视为是分化的,不过,两个分化的部分既有可能是相互独立的,也有可能是相互补偿的。
三、大脑如何平衡冗余和协同?
冗余和协同作为广泛存在于大脑不同区域的两种重要交互方式,二者的区分得到了大量研究的支持。一项使用NeuroSynth数据库、涉及15000余项影像学研究的元分析发现,冗余信息在感觉运动加工中起到至关重要的作用。作为大脑的输入-输出系统,稳定的感觉运动加工对生存至关重要,冗余的交互方式则为这一过程提供了必要的稳健性。
另一方面,协同信息则扮演了大脑中“全局工作空间”的角色,是完成高级认知功能的关键。高度协同的脑区表现出更快的有氧酵解(aerobic glycolysis)、更多样的神经递质受体表达,为灵活快速的供能、突触形成以及神经调控提供了基础[5]。
在宏观尺度上,人类的静息态fMRI数据表明,总体来看,协同似乎更为普遍[5],但也与具体脑区有关。额叶和顶叶联合皮层以协同为主,这些区域是大脑中整合多模态信息的重要区域,其中,额叶联合皮层主要负责长期规划和决策,顶叶联合皮层则负责空间定位、手眼协调等功能。
相反,冗余则主要出现在较为初级的、处理单一模态信息的皮层区域,如初级视觉皮层、躯体运动皮层和听觉皮层。相较于其他灵长类动物,人类拥有更为发达的联合皮层,这意味着我们的大脑更多地以合作、协同的方式整合多重信息。这些发现无疑为人类的认知优势提供了信息论的证据。
微观尺度的研究证据与宏观尺度的fMRI研究结论高度一致。例如,电生理记录发现,神经元之间的交互对于解释前额叶皮层中的脉冲活动非常重要,前额叶神经元常常会根据刺激和任务的变化展现出复杂而灵活的反应。然而,对于视觉皮层(V4,尤其是V1),神经元之间的交互在解释脉冲活动方面的贡献度要低得多[6, 7]。
除了以人类为对象的研究证据,人工神经网络研究也发现,在早期,网络中冗余占主导地位。但随着学习的深入,一些神经元开始变得专一化,提供更多的独特信息。当人工神经网络在学习多任务时,它们需要足够灵活以整合不同来源的信息,此时,协同作用会不断增强。
一旦高度协同的神经元被破坏或移除,整个网络的表现会明显变差。假如在训练时随机关闭神经元,神经网络变得更加冗余但也更加稳健,训练完成后面对人工损伤也有更好的抵御能力[8]。
综合来看,冗余没能充分利用神经系统处理信息的能力,但提供了强大的稳健性,是人类及众多灵长类动物感觉运动功能的基础。协同与更高阶的信息加工息息相关,更具效率也更为灵活,是人类成为万物之灵的重要助力,但一旦某一部分受损,有赖于不同神经元/脑区协同作用的高阶认知功能也更易恶化。
图片来源:参考文献[2],图3:(A)图中蓝色和红色分别对应大脑中冗余和协同为主的区域,蓝色脑区主要与初级感觉运动加工有关,以底层的结构化连接为基础,展现出高度模块化的网络组织,即不同部分只专一化地加工单一模态的信息,如视觉皮层对应视觉信息。红色脑区负责复杂认知加工,并且与突触密度、突触树突相关基因等有关,拥有更强的可塑性。(B)协同的演化史。冗余信息对不同物种都相对稳定,而与其他灵长类动物相比,人类大脑中表现出更加发达的协同信息,这可能是由于人脑拥有更发达的皮层区域。
四、人工智能设计的新蓝图
信息分解框架提供了探究大脑信息加工的全面视角,也为我们理解人类的进化优势提供了许多新的证据,除此以外,信息分解也将有助于研究者设计更加类人的人工智能系统。
当前,人工神经网络已在多个领域展现出强大的能力。关键的问题是,这些系统是否也像人脑一样依赖于协同作用?
近期,人工智能的进步主要来源于模型的规模。研究者观察到,随着人工智能模型的规模扩大和其在处理多任务方面的灵活性增强,我们可以观察到模型表现出更多的协同作用。这些都可以视为人工智能系统越来越类人化的标志。
但协同作用内在的易损性对于人工智能来说也是一种隐患,因此,未来在设计人工智能系统时,应对系统中不同类型的信息加以辨别,将信息分解框架发展为一种理解复杂系统的通用语言,这也将有助于人们解开许多人工智能模型的“黑箱”。
反过来,人工智能也能为信息论研究提供强而有力的检验环境。比如,我们已经观察到在面对复杂任务时,协同作用会增强。那么,假如通过演化算法的方式,将人工智能系统设计成为更偏好协同作用,它们是否能更好地应对复杂任务呢?
更进一步地,假如某个人工智能系统只拥有协同作用的能力,这将为我们提供一个独特的视角来直观探究协同作用的优势和局限性,这种极端环境是任何生物系统都无法实现的。
图片来源:参考文献[2],图4:使用信息分解框架作为连接生物与人工智能的罗塞塔石碑(罗塞塔石碑上包含希腊文、古埃及文字等多种语言,是研究古埃及历史的重要参照)。在生物的大脑中,信息加工、信息分解帮助我们理解大脑结构和功能组织与认知和行为变量之间的关系,类似地,在人工智能系统中我们也可以建立起系统架构与计算能力和表现之间的关系。无论是生物大脑皮层,还是人工智能系统,信息加工、信息分解不依赖于载体,可以成为一种通用的语言。
五、结语
现实生活中,如火如荼发展的人工智能技术时不时引发人们的惊呼,其实,大脑的精巧程度远非人工智能可及,信息分解框架无疑让我们朝大脑之谜再度前进了一步。
未来,我们还能以怎样的方式分解信息?我们如何基于信息分解创造出更先进的人工智能系统?对大脑的信息结构更加全面地了解能否帮助我们破解困扰人们的诸多精神障碍?也许有朝一日,当我们将大脑的基础货币拆解得足够细微,人造大脑便不再是梦想。
参考文献:
[1] Timme, N. M., & Lapish, C. (2018). A Tutorial for Information Theory in Neuroscience. Eneuro, 5(3), ENEURO.0052-18.2018. https://doi.org/10.1523/ENEURO.0052-18.2018
[2] Luppi, A. I., Rosas, F. E., Mediano, P. A. M., Menon, D. K., & Stamatakis, E. A. (2024). Information decomposition and the informational architecture of the brain. Trends in Cognitive Sciences, 0(0). https://doi.org/10.1016/j.tics.2023.11.005
[3] Mediano, P. A. M., Rosas, F. E., Luppi, A. I., Carhart-Harris, R. L., Bor, D., Seth, A. K., & Barrett, A. B. (2021). Towards an extended taxonomy of information dynamics via Integrated Information Decomposition (arXiv:2109.13186). arXiv. https://doi.org/10.48550/arXiv.2109.13186
[4] Faes, L., Marinazzo, D., & Stramaglia, S. (2017). Multiscale Information Decomposition: Exact Computation for Multivariate Gaussian Processes. Entropy, 19(8), Article 8. https://doi.org/10.3390/e19080408
[5] Luppi, A. I., Mediano, P. A. M., Rosas, F. E., Holland, N., Fryer, T. D., O’Brien, J. T., Rowe, J. B., Menon, D. K., Bor, D., & Stamatakis, E. A. (2022). A synergistic core for human brain evolution and cognition. Nature Neuroscience, 25(6), Article 6. https://doi.org/10.1038/s41593-022-01070-0
[6] Chelaru, M. I., Eagleman, S., Andrei, A. R., Milton, R., Kharas, N., & Dragoi, V. (2021). High-order interactions explain the collective behavior of cortical populations in executive but not sensory areas. Neuron, 109(24), 3954-3961.e5. Scopus. https://doi.org/10.1016/j.neuron.2021.09.042
[7] Rigotti, M., Barak, O., Warden, M. R., Wang, X.-J., Daw, N. D., Miller, E. K., & Fusi, S. (2013). The importance of mixed selectivity in complex cognitive tasks. Nature, 497(7451), Article 7451. https://doi.org/10.1038/nature12160
[8] Proca, A. M., Rosas, F. E., Luppi, A. I., Bor, D., Crosby, M., & Mediano, P. A. M. (2022). Synergistic information supports modality integration and flexible learning in neural networks solving multiple tasks (arXiv:2210.02996). arXiv. https://doi.org/10.48550/arXiv.2210.02996
本文来自微信公众号:追问nextquestion (ID:gh_2414d982daee),作者:张旭晖,编辑:存源