第7章 下一步:皮质不止一片

世上有许多未知,这意味着我们知道有些东西我们不知道。但还有未知的未知——我们不知道我们不知道的东西……(那些)是更难的。

——唐纳德·拉姆斯菲尔德

神经科医生和神经科学家相信(不论对错),大脑皮质令人类区别于其他生灵。它让人能去思考,去交谈,去感受。也许这样说太过简化,不过视觉皮质一直是视觉科学家的主要研究对象。一个巨大的突破是在20世纪90年代末,对视觉神经元的无痛记录臻于完美,科学家能训练猴子做视觉任务,并在它们做任务的同时进行神经记录。这让我们得以把从大脑中听到的神经发放与猴子面前的视觉图像关联起来。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

截至目前,当我说“皮质”的时候,我一直指的是初级视觉皮质,它是神经轴突离开外侧膝状体后去往的主要目标。初级视觉皮质被简称为V1,是位于大脑后部的一片占据脑部15%表面积的区域。你或许能从“初级”二字中猜到,还有更多视觉皮质——V2、V3、V4等。还有许多脑区也对视觉刺激有反应,但不完全是视觉的,更有一些脑区做着完全无关的事情,它们在我们命名视觉系统时并不占有一席之地。

事实证明,大脑的视觉脑区是由不同区域拼贴而成的,各个区域以不同的方式响应视觉对象,并以我们还不太了解的方式相互交流。由于猴子的皮质一直是大多数研究的重点,因此从这里开始,我们将专注于从猴子身上得出的研究结果。基于解剖学和许多其他证据,我们相信人类的视觉系统和猴子没有太大差异。

下图标记的视觉脑区各自有特定的亚功能,如识别对象、检测对象运动等。

V1是初级的视觉皮质,外侧膝状核发出的视觉信息的最主要目标。V2、V3和V4逐个深入大脑。你可以或多或少地将它们视为视觉处理链中的串行链接。但是,还有许多其他脑区,在图中用缩写标出,我将在必要时进行更多说明。[1]

阅读 ‧ 电子书库

额叶但是首先,所有这些大脑区域对你的视觉来说有什么作用?使用非常宽松的定义,一些人认为30%的大脑与视觉有关。至少对我而言,这里面东西太多,无法一下全部考虑。因此,我将首先关注研究得最多的两个皮质区域,一个与运动有关的MT脑区(位于颞叶中部,靠近上一页图的中心)。另一块是颞下叶(IT)的几组重要皮质区域,其中的细胞会对面孔做出反应。

MT皮质区:天生的动作探测器

许多聪明人的辛勤工作让我们得以详细了解MT脑区中细胞的响应。就像我们博士后在上一章对LGN所做的那样,你可以记录MT脑区的神经活动,只要把电极放在神经元附近,然后在屏幕上照亮图案,弄清楚投射到屏幕上的什么内容可以让MT神经元发放。事实证明,MT神经元具有我们从未遇到过的特性。

首先,MT神经元的感受野远大于视网膜甚至初级视觉皮质神经元的感受野。它们的感受野大小是V1神经元的4~10倍。这意味着MT细胞不能再被视为组成视觉的像素点,它们的单位更为抽象。

但是,大多数MT神经元都有一个非常花哨的技艺:它们具有方向选择性,有点儿像我们在视网膜中遇到过的那种细胞。像视网膜神经元一样,它们会向大脑的其余部分报告某些东西正在朝某个方向移动。但是,与视网膜神经元不同的是,由于它们的感受野很大,它们不能告诉大脑运动物体具体在哪个位置。仅从神经元发放的增加来判断,移动的物体可能位于一个大范围内的任何地方。但是它们还有其他有用的属性。

在它们的感受野内,MT神经元的响应不拘一格,只要物体在里面移动,不论是一个巨大物体整个掠过,还是一群小光点沿着一个方向浮动,它们都能很好地响应。视网膜神经元对后面那种刺激就没有太大反应。你可以通过显示一个由移动光点组成的云来逗弄MT神经元,其中一些点朝一个方向移动,而另一些点朝相反方向移动(你可以编写代码来使计算机生成这种图案),在这种情况下,MT神经元一旦确定多数的点朝其喜欢的方向移动,就会做出响应。

因此,这种细胞会告诉它的下游,有东西正朝着一个特定方向移动,但是它并不会说明移动的东西是什么、在哪个方位。但是,一些MT神经元可以做一件真正了不起的事情,它能响应被遮挡部分的物体的运动。一个例子就是一些MT神经元对老式理发杆的反应。理发杆是在水平轴上旋转的垂直圆柱体。重要的是,它所做的只是旋转:它唯一的真实运动是圆形的水平运动。圆柱体上绘有斜线图案。理发杆旋转时,你会看到杆表面的图案向上(或向下,这取决于杆旋转的方向)移动。当然,这并不是实际发生的情况:理发杆的表面上的任何点都在杆旋转时绕着一个水平的圆圈运动,向上运动只是一种视觉上的错觉。专门的实验室测试表明,MT中的许多神经元都报告了这种不存在的运动方向:它们觉得条纹正沿着理发杆向上移动,但实际上并没有客观的向上移动。

还有更了不起的。MT的许多神经元也对眼前对象的距离敏感。大脑通过比较物体落在每只眼睛视网膜上的位置来找出距离。如果物体很远,则两只眼睛上的图像几乎会落在视网膜上的同一位置。如果物体非常近,则视差较大。MT(以及其他一些区域)的神经元对两只眼睛的输入差异很敏感。它们会有选择地对距离眼睛一定距离的物体敏感。记住,MT中的神经元还都有一个喜欢的运动方向。因此,MT中的某个神经元可能仅对距离大约6米并从左向右移动的视觉物体做出反应。MT神经元可能对刺激物的大小含糊不清,但除此之外,它们都是非常具体的。

而且,有直接证据表明这些细胞参与了感知。斯坦福大学的威廉·纽瑟姆(William Newsome)及其同事使用他们的记录电极向清醒活动的猴子脑中的MT神经元施加微小的电刺激。他们训练猴子,让它们报告物体运动的方向。实验发现,刺激MT神经元可以提高猴子的运动感知能力,让它们更好地识别该神经元感受野内物体的运动。

在继续之前,我必须负责任地告诉你,信息一旦进入大脑高级中枢,几乎所有脑区都在相互交流。下一页图展示的是视觉运动感知通路(即以MT为中心的神经通路)连接的详细地图。简而言之,你看到的是一团乱麻:看起来所有脑区之间都相互连接,而且大多数连接中的功能尚未可知——比起视网膜—外侧膝状核—初级视觉皮质(V1)这条神经通路,我们对它们的了解要少得多。

阅读 ‧ 电子书库

MT神经元对自然视觉场景中发生的运动进行了非常复杂的分析,但是单独关注它们时,会有相当程度的不确定性。简而言之,我们知道这些细胞可以执行的某些操作,但是我们不知道它们为什么要执行这些操作——它们对视觉场景的分析如何有助于我们最终实现统一的感知?我们现在将不再讨论MT,因为它并不是对象识别通路的一部分。

识别面部的皮质区域

我们看到,大脑皮质处理视觉信息的第一站是初级视觉皮质V1,然后是V2、V3和V4。粗略地讲,信息确实通过这些区域从V1流到颞叶,但是人们对其了解甚少。尽管发表了很多研究成果,领域内的大师还是没能对它们的功能做出精辟的描述。(剧透一句,这可能是因为它们是神经网络中的“隐藏层”,其功能取决于整个神经网络所学到的知识。我们将在第10章和第11章中再次讨论。)我在这里只能给你描绘一张草图。

V1和V2之间最明显的区别是,V2神经元的感受野比V1神经元的感受野大,其中更多的细胞具有复杂的感受野。如我们所见,V1包含更多的简单神经元,这些神经元只对相当狭窄的刺激特征(即在特定位置朝向特定角度的线条)有反应,而V2包含更多的复杂细胞,它们的反应对位置的限制较少(线条在视网膜上的位置对其响应影响不大)。但是,这也只是相对的:V1中的许多神经元也具有复杂的感受野。

V3中的神经元具有多种特性。几乎所有细胞都有方位选择性,但是方向选择性和颜色选择性也很常见。V4曾经被认为是“色觉中心”,但是后来我们了解到V4中的神经元可以具有多种选择性。V4还包含对方位、运动和深度有选择性的细胞。因此,我们无法对这些脑区的功能进行单一的描述。尽管我们有时将皮质区域V1、V2、V3和V4视为层次结构,但唯一可以肯定的是,我们已从简单的属性研究到了更复杂的属性。

沿着颞叶向前,这里的神经元对具体的视觉对象具有更显著的选择性。这些区域包括一系列区域(或“斑块”),其中一些包含着选择性响应面部的神经元。面部斑块之间的区域对其他一些物体敏感,因此颞叶似乎是由负责不同视觉对象的神经斑块组成的“棋盘”。查尔斯·格罗斯(Charles Gross)和他在普林斯顿大学的同事在20世纪70年代后期首次报告了面部选择神经元的存在。他们在颞下叶记录到的神经元,对特定的物体、手和脸有很高的选择性。

在我们大多数人看来,面部选择性细胞似乎特化得不可思议。而且在整个颞叶的空间中,这些神经元并没有那么数量众多,因此格罗斯的报告遭到了一些怀疑。如果像格罗斯那样,用微电极研究颞叶,那碰到一个面部选择性神经元将是很偶然的:你只能研究碰巧位于电极下方的细胞,且不能研究很多,因为神经元记录是很耗时的,也因为这些斑块很小,它们仅覆盖颞叶表面的一小部分。直到脑扫描技术出现,人们才得以清楚地看到这些面部识别斑块并验证其存在。

像查尔斯·格罗斯和我这样研究细胞的神经科学家最初对核磁共振成像(MRI)扫描不屑一顾,认为它不适用于神经生物学研究。与高精度的微电极相反,MRI扫描大脑的大面积区域,早期它们的分辨率很低,可靠的成像需要技巧和谨慎。MRI接收到的信号很小,容易受到多种干扰。因此,图像要经过多重处理。处理过程中的微小偏差很容易产生错误的结果(不少知名的神经科学论文中也犯过错)。不过,现在这些机器的性能已经有了提升,而且它们具有两个优点:第一,它们是完全非侵入性的;第二,尽管它们的分辨率远低于微电极,但它们一次就能显示大脑的大部分区域的活动。

我们可以从活着的、有意识的人或动物中收集MRI图像,而不会造成任何伤害,这是因为当大脑的某个区域在工作时,它需要更多的能量,因此需要更多的血流量,而这正是功能性磁共振成像(fMRI)所检测到的。fMRI向实验人员揭示大脑的哪个部分在何时活跃。实验人员可以指示被试进行各种脑力活动,或给被试展示图片或播放声音;fMRI生成的图像将显示该脑力活动涉及哪些大脑区域。

有几个实验室——其中包含麻省理工学院的南希·坎维舍(Nancy Kanwisher)团队,在被试观看各种东西的图像时使用fMRI。有趣的事情发生了。一旦一张脸被呈现在被试面前,在被试的颞叶中,特定的小斑块就会亮起来,而且在不同被试之间,这个斑块几乎总是出现在颞叶中的相同位置——这是可重复的生物学事实,而不是该技术生造出的假象。这也解释了为什么格罗斯和早期的实验人员难以可靠地证明面部细胞:这些斑块支离破碎地分布于颞叶,微电极必须放在正确的位置才能记录到它们。

在人和猴子的脑中,有6个这样的斑块,它们沿着颞叶的表面从后部(下页图左侧,接近初级视觉皮质)朝向颞叶的前端弯曲地分布。

斑块的确切位置并非一成不变,有时一些斑块会位于大脑下方,因此小猴子大脑扫描的侧视图(见下页)无法显示全部6个斑块。但是在每个斑块中,很大一部分细胞都对脸部有选择地敏感,无论是人脸、猴脸、卡通脸还是洋娃娃的脸。

然后,曹颖(Doris Tsao)、玛格丽特·利文斯通(Margaret Livingstone)和他们的学生研究了如何将微电极引导到每个脸部斑块。记住,面部补丁是由神经活动而不是神经结构定义的:大脑表面没有完全可靠的标志来指示脸部斑块的位置。这些小组找到了一种方法来对脸部斑块进行成像,定位颞叶中的位置,然后用微电极可重复地记录。这真的是一项勇敢的实验,任何曾经把头伸进fMRI扫描仪中的人都可以想象,让猴子静静地躺在里面看屏幕会有多么困难。

阅读 ‧ 电子书库

实验表明,所有面部斑块都包含具有非常大的感受野的神经元,它们各自调查的视觉空间区域远大于一个视网膜神经元、外侧膝状核神经元或V1神经元的感受野。细胞会报告在区域内是否出现了一张脸。但是,各种面部斑块之间存在差异。在靠近后部(最接近V1)的斑块里,神经元的响应取决于脸的朝向(如正面、侧面等)。这意味着,它们所面对的面孔必须始终朝着向同一方向才能被识别。打个比方,有个神经元会对你祖母的脸敏感,但只有她朝着你的左肩看时这个神经元才会响应。

另一个区域似乎对给定的脸部或其镜像有反应。换句话说,这里的细胞已朝着对象识别的关键要素迈出了一步,从而使自己摆脱了对面部朝向的需求;单元格的响应是部分视图不变的。最晚的一个斑块最靠近额头,包含真正的视野不变的神经元:无论一张脸朝着哪个角度,它们都可以识别。因此,一个重要的猜想是6个斑块组成了一列层级:最早(最靠后)的斑块更严格地与视网膜图像相关联,而最前面的斑块则和视网膜联系较少。

实验证据表明,这些斑块可以作为一个系统协同工作。实验人员训练猴子识别脸部,然后用非常精细的微电极刺激面部斑块。第一,你会发现这些斑块是相互联系的,刺激一个面部斑块会导致其他面部斑块活跃。第二,破坏正常神经元活动的电刺激会令猴子分辨面部的能力降低。这证实了面部神经元实际上是用于识别面部的。

我们都知道一张脸的样子,但是当我们说一个细胞“识别”一张脸时,这到底意味着什么?你可能已经猜到,一张脸可以分解为不同的元素。首先是两只眼睛,在它们下面有一条大约竖直的线条——一个鼻子,鼻子下方还有张椭圆形的嘴,等等。实验人员可以从真实的或人造的面部中添加或减去这些特征。他们发现,如果缺少某些特征,细胞的反应会逐渐减弱。因此,面部选择性细胞对下图中左上方的脸部反应较弱,而对右下角的面部反应强烈,但是它确实对图中的所有图像(包括仅具有几个面部特征的图像)都有一定的响应。

阅读 ‧ 电子书库

有人提出这些细胞做的是测量一堆面部参数,并且联合分析这些参数,来确定某个对象是否是一张脸。例如,曹和她的同事研究了一种脸部选择性细胞,该细胞对脸部的4个方面反应特别敏感:脸的高宽比、眼间距离、眼睛的位置和瞳孔的大小。这些特征中没有一个为该细胞定义了脸的存在,但是将它们组合在一起,就能够说服该细胞它看到了一张脸。

面部斑块中的每个细胞都对脸的特定部位敏感。通过制作卡通脸,然后将它们分成不同的部分,实验者发现,有些细胞对脸的长宽比(细长脸还是圆脸)敏感,另一些细胞则对眼睛之间的距离最敏感,依此类推。细胞测量一张可能是脸的刺激的各种参数,然后以某种方式将这些参数相加以决定眼前的对象是否为一张脸。[2]

细胞如何完成这项任务?它们为何选择性地对面部敏感?我和其他一些人相信它们是通过学习获得选择性的。该理论取决于一个关键的事实:感觉系统的神经连接具有很强的可塑性。这本身就值得写一章。

[1] 你无须太过在意这些斑块的确切位置,我只是给你一个大概的印象。别的不说,大脑表面的轮廓就在人群中有很大差异——至少和人们鼻子形状的差异一样大。另外,专家们对哪种脑区命名系统最正确也有争议。

[2] 曹对面部细胞机制的理解与其他人有所不同。根据一些直接的证据,曹相信,大脑针对面部测量了大量(约50种)参数(例如双眼间距)然后组合在一起给出了一张脸的独特标志。另一个更受公认的观点认为实际的机制没有这么绝对(测量的参数更加抽象或随机一些),这会在第10章和11章详述。