第11章 对视觉的最新认识

大部分科学思想本质上都是简单的。它们应该能被表述成所有人都能理解的东西。

——阿尔伯特·爱因斯坦

是时候把一切都串起来了。让我来回答我在本书开头提出的问题吧:父母是如何从拥挤的操场上认出自己的孩子的?回答这个问题是神经科学的一大挑战,即给出大脑识别物体的机制。我要描述的不是教科书给出的图景——固定的层层递进的视觉处理步骤。最近的研究表明,视觉几乎从头到尾都涉及可塑的动态机制,即通过神经网络学习规则进行调整。

广告:个人专属 VPN,独立 IP,无限流量,多机房切换,还可以屏蔽广告和恶意软件,每月最低仅 5 美元

我先给你看一个连接环路图(见下页)。它是由圣路易斯华盛顿大学的丹尼尔·福尔曼(Daniel Felleman)和戴维·凡·埃森(David Van Essen)绘制的灵长类动物视觉系统内各脑区相互联系的地图。矩形框代表各个脑区,线条代表它们之间的轴突路径。神经生物学家喜欢用这张图片来演示大脑有多么复杂。你可能会说我们只是没有弄清楚。但请记住,这张地图上仅显示了脑区之间的总体连接,还有许多细节的连接没有被标注出来。如果把它们全画上去,将需要数百万条线。以下页图的比例,整张地图都会被黑线填满。

阅读 ‧ 电子书库

我们从哪里开始?让我从最普适的基本原则开始,带你了解视觉系统工作的基本原理。可以肯定的是,实验人员最终将不得不深入到各个方面。许多细节尚不清楚,并且对于高级视觉区,我们只能用非常粗略的笔触描述。不过,从系统设计的全局概念入手会有所帮助。这些基本原则是:

1.视觉系统并不会中性、无偏地记录所有输入,在每一层,它们都会将输入扭曲,以符合自然环境的规则性。

2.在一些情况下,这些规则性是由基因编码的,但在更多情况下,这是由神经网络习得的。从最基本的规则性,如对边缘和线条的敏感,到复杂如面孔,都有神经网络学习的成分。

3.大脑视觉区域之间的主要连接是通过分子诱导而得的,这些分子也是大自然用来引导幼体发育出肝脏和手掌的机制。它们基本上就是帮助神经元找路的化学信号。它们诱导轴突连接到大脑的目标区域,然后帮助它们形成一张视觉世界的大致拓扑地图。但是对于特定物体的感知——物体识别背后的神经连接,却是由神经可塑性规则创造的。

视觉大脑是一张神经网络

我已经给你介绍过基本的实验观察结果,我们再回顾一下:

1.视网膜对图像进行预处理,把它分解成许多相互独立的表征。

2.视网膜会投射到LGN,后者将会锐化感受野,并掌控着流向大脑皮质的信息闸门。

3.初级视觉皮质V1会对感受野进行转换,大多数V1神经元对有朝向的线条反应最强。

阅读 ‧ 电子书库

4.在V1和V2中,有些细胞被称为“复杂细胞”。复杂细胞也对边缘的朝向有反应,但是边缘可以不局限于一小块感受野内,可以是在视野一大片区域内的任何位置。这代表着一步抽象化,它们对特征的分析将独立于特征的原始位置,不再局限于完全反映视觉输入。

5.接下来的皮质区域——V3和V4——包含的神经元的偏好更多样化。举个例子,有些对颜色敏感,有些对运动敏感,还有些对距离敏感。它们会投射到颞叶的视觉区域。

6.颞叶下部的皮质区域是一群混合的神经元斑块,这些斑块各自对不同的事物敏感。有些斑块专门从事识别面孔。

7.从颞叶的后部到前部,细胞越来越具有位置不变性,也就是说,它们对人脸的识别独立于其在空间中的精确位置或方向。

8.继续向前,在更高的脑区,如靠中线的颞叶和更高的皮质区,细胞只对特定人或物的图像敏感,而无关它在视野中的位置或视角。

科学家曾经认为,这些步骤大多是固定的,但是如你所见,现在有证据表明可塑性发挥了更大的作用。在本章接下来的部分中,我将再次引导你从视网膜到更高的皮质参观一遍视觉系统,这次我们将着重于其连接的网状特征以及可塑性。你会发现人类视觉与计算机视觉的相似之处。

视网膜

计算机视觉通常包括一个被称为预处理或图像归一化的步骤,它将杂乱的自然图像转化为更简单、更易于处理的东西。这也是你的视网膜对图像进行的第一步处理:它检测光,并将光敏细胞(视杆和视锥光感受器)的初始输出转换成视觉系统其余部分可以处理的东西。首先,视网膜必须把地球上自然存在的巨大光强变化范围归一化。这个范围比我们通常意识到的要大得多。如果视杆细胞和视锥细胞的输出在大脑处理之前没有通过视网膜归一化,那么从黑暗的午夜到炽烈的白天,视杆细胞和视锥细胞的输出大小将相差1000亿倍。单个神经元、大脑甚至计算机都无法处理数值范围如此大的输入。

视网膜会压缩该范围,因此在任何给定的环境照明下,其输出的最大强度也只有最小强度的10倍左右。它非常聪明地把这个狭窄的范围集中在当时环境的平均亮度上。[1]当我们突然从一个非常黑暗的房间走到一个明亮的地方,我们就会意识到这一过程,反之亦然。我们会眼花缭乱或陷入黑暗,直到视网膜重新为新的亮度范围组织起来。视网膜要做的第二件事是进行边缘检测(并在边缘处进行对比度增强)和运动检测,就像我们在第4章中看到的那样。

这些早期图像处理步骤的意义是什么?在计算机中,几乎所有机器视觉算法都采用了一些已定义的步骤,其目的是减轻后续处理步骤(无论是基于规则的分析还是神经网络)的计算压力。长期以来,大自然已经了解到,移动的事物很重要。视网膜在其运动敏感的视网膜神经节细胞中体现了这种知识。

外侧膝状体

在你临近出生前,视网膜神经节细胞的轴突已经到达LGN中的目标神经元。但是,它们的连接并不精确:视网膜神经节细胞的每个末端都分成许多小树枝,这些小树枝广泛散布以靶向LGN的单个神经元。如果这种情况继续下去,我们的视线会因这些重叠的通路而模糊。但出生后,因为突触的可塑性,神经元可以改善视网膜轴突的靶向,使其更精确。

它的简要工作方式如下:预先编程好的信号分子将视网膜轴突引导至LGN的附近,并在此处形成粗略的拓扑地形图。随后,因为同时激发它们的突触后LGN神经元,来自同一只眼睛的轴突输入连接得到增强。渐渐地,向LGN的靶向得到改善,轴突不再广泛形成连接,而是根据眼睛精确组织,一团LGN神经元响应右眼的输入,而另一组响应左眼的输入。斯特赖克和沙茨的实验证明了这是一个里程碑,因为它们涉及的事件可以用精确的可再现实验进行验证。

初级视觉皮质

从这里开始,你可以将视觉系统的各个阶段视为神经网络中的各个层。让我回顾一下对象识别的各个阶段,并根据我们现在所理解的机器学习规则,来指出大脑如何进行每个阶段的处理。

LGN细胞的轴突投射到初级视觉皮质。在那里,出现了对特定朝向的边缘敏感的神经元。皮质用没有方位选择性的LGN感受野构建出了简单的方位选择性感受野。

想象一下,我们正在绘制V1中神经元对非常小的光点的响应。我们得到了感受野的图,如下图左图所示。但是,神经元对单个小光斑的反应很弱,它真正喜欢的是沿着那排标着加号的区域(兴奋区)的光条或边缘。[2]几个整齐排列LGN细胞的输入会聚在皮质神经元上,使得LGN神经元在视网膜上的感受野成行排列。

阅读 ‧ 电子书库

LGN细胞的感受野是左侧的圆圈。LGN的轴突会聚在视觉皮质的单个神经元上。其中一些是兴奋性的(开细胞,显示为加号),有些是抑制性的(关细胞,显示为减号)。如果视网膜被合适角度的边缘刺激(绘制于最右),则所有兴奋性输入均被激活,而抑制性输入均未被激活。

皮质神经元具有一个细长的感受野,如你所见,有一个兴奋性区域,旁边是一个抑制性区域。该电池的最佳刺激如右图所示:暗区与亮区邻接。这正是我们所指的定向边缘。只有边缘的角度合适时,在边缘的较亮一侧的四个LGN神经元的输入才能相加。

线条和边缘很重要,因为它们是自然场景中占主导地位的信息承载部分。这是因为我们的世界是由物体组成的,而它们的边缘勾勒出它们的边界,将物体与环境分开。边缘通常是笔直的,例如树木的树干。有时它们会稍微弯曲,例如一块石头的边缘。但是,曲线只是一条小直线的集合。因此,边缘是视觉系统在连线时所接受的输入的很大一部分。

经过暴露于自然世界的训练后的神经网络是如何将由圆形的、无方位选择性的感受野组成的输入转换为对线敏感的神经元的,也就是说,它是如何生成视觉皮质的“简单细胞”的,是很容易发现的。想象一组LGN细胞会聚在V1神经元上。当一排LGN细胞被边缘刺激时,这些细胞会一起发放从而让它们突触后的皮质神经元发放。共同发放的神经元携手相连,因此,这4个LGN细胞在皮质细胞上的突触得到了增强,而在该皮质细胞上的其他突触则相对减弱。

实际上,这是很久以前通过训练一个简单的计算机神经网络进行测试的,我们仅仅给该网络展示了许多自然世界的图像(这就是无监督学习的例子),其输出层表明神经网络已经学会了识别直线。也就是说,在训练结束时,计算机网络包含了许多它自己的简单细胞。

请记住,真正随机的图像看起来像电视雪花,而视觉世界远非随机,处处充满边缘。因此几乎任何视觉系统,无论自然的还是人工的,都会在早期阶段进行边缘检测。

皮质脑区V2:复杂细胞

你应该记得,像简单细胞一样,复杂细胞也是具有方向选择性的,但是它具有更大的感受野,而且它不太关心边缘的具体位置。它执行了一项概括:可以说它检测到特定方向的“边缘性”,但不关心视网膜上的哪些特定像素受到了刺激。

人们认为复杂细胞的创建方式与简单细胞相同,都是通过早期神经元输入的会聚。简单细胞是LGN神经元的会聚,而复杂细胞是简单细胞输入的会聚。每个简单细胞都对特定位置的边缘敏感。如果许多具有稍微不同的感受野位置的简单细胞会聚,那一个复杂细胞就会对同样朝向的边缘做出响应,但是边缘可以散布在更宽的空间上。

阅读 ‧ 电子书库

皮质区域V2包含许多此类细胞。它们也存在于V1中。我在这里将它们区分开,是为了强调休伯尔和维泽尔所提出的理论,即复杂细胞是由简单细胞的输入自下而上会聚而形成的。这明确启发了现代的机器学习。

皮质区V3和V4

因为在V1、V2、V3和V4之间存在大量的来回连接,所以这些脑区之间似乎没有严格的信息处理的先后关系,也就不好想象任何一个用早期神经元构建后期神经元感受野的机制。它们更像是一张网。

从V3和V4区域的神经元记录来看,细胞对视觉输入的多种特征具有响应,曲率是其中被研究得很多的一项。最初,休伯尔和维泽尔将其描述为“断点”细胞。这些细胞有点儿像复杂细胞——实际上,他们认为它们是由复杂细胞构建的,但具有附加功能:它们不仅喜欢边缘,而且喜欢某些固定长度的边缘。随后的研究人员指出,这也可以看作细胞对曲率敏感。但是,在V3和V4区域中还有许多其他选择性。V4中的某些细胞可以区分颜色。V2中的某些细胞甚至对拐角敏感。因此,先贤们还不能对这些细胞的作用做出简洁的描述。

类似于计算机神经网络,可能是V1、V2、V3和V4是神经网络的中间级别“隐藏层”。这可能是付出了巨大的努力却还是难以给这些神经元分类的原因。如你在第10章中所见,隐藏层将数个神经网络串联在一起,从而大大增强了它们的功能。之所以将它们“隐藏”,是因为它们不直接与外界对话,而仅与下一层对话。即使在我们自己构建的计算机智能中,解释隐藏层的作用也总是不容易的。而且没有理由说隐藏层中的每个神经元都必须做同样的事情。我们确实认为V3和V4中的单元比V1和V2中的单元在特征检测方面更为复杂。一种理解是,它们只是隐藏层,反映了介于在V1和V2检测到的特征与在颞叶检测到的特征之间的复杂性。

颞叶

一条不太严格的规律是,颞叶的图像处理似乎是沿着从后到前的层次进行的,在靠近后方、靠近V1附近的脑区检测的是较为简单的特征,而在靠近颞叶前部的位置检测的是更复杂的事物。这是一种简化(还记得前面的那张解剖“回路图”吗?我们还没有考虑其中包含的许多反馈回路),但可以帮助我们理解图像处理。

颞叶至少有6个面部斑块,通过轴突连接在一起。它们的专业术语具体基于颞叶的解剖位置而定,但这些标签很难被非解剖学家记住(甚至专家的意见也不统一),因此,我将其统一在一起讨论。我将暂时只用颞下叶的后部、中央和前部这些词来泛泛地说明解剖方位。

我遵从最新的思潮,把分布在颞叶上的6个面部斑块视为神经网络的隐藏层,它们从属于一张专门用来识别特定视觉物体的网络。这里的关键是隐藏层并不具有由遗传预先决定的功能,正如列文斯通和她同事的实验里,在猴子看到面孔之前,它们的面部斑块会识别手而不是脸。颞叶的这些斑块在某种程度上是通用物体识别器。

如果面部识别机器可以作为我们理解大脑的指导,那位于颞叶后部和中央的隐藏层检测的就是越来越复杂的面部特征集合。颞叶后部接受V1至V4的输入来识别脸部、鼻子、下巴、发际线,尤其是眼睛。你也许可以凭借直觉想象前面各层的复杂选择性(对曲率、拐角等特征的选择性)如何允许颞叶神经元定义面部的一部分,不过,我们还是不知道这个过程具体的实现机制,就像我们不完全清楚隐藏层的计算一样。

颞叶后部和中央的面部斑块似乎可以将面部特征组合成简单的面部表征——如果你愿意,可以称之为“原型面部”。从早期隐藏层继承的特征组合形成了原型面部。曹和她同事的研究表明,这些特征是相对简单的特征,例如脸部的长宽比、两眼之间的距离等。面部的像素不会随机出现。代表鼻孔的两个黑洞成对出现的机会多于偶然,它们也更有可能出现在代表嘴巴的像素块上方。定义脸的各个元素将被链接在一起——你可以把它们视为神经集群。

这些细胞对真实的生物学面孔的图像敏感,但是它们也很容易被卡通面孔所欺骗——一个包含两点眼睛、短直线鼻子和嘴巴的卵圆形就可以让它们响应。实际上,曹已经展示了如何通过数学方式将各个元素进行组合成一张“脸”,甚至可以调整图像的“像脸程度”。如果你向这些神经元显示一张缺少一只眼睛的简笔面孔,则其反应强度会比有两只完整眼睛的图像低一些。不过在这个脑区,脸也必须落在细胞感受野的特定位置,就像V1的简单细胞需要在特定位置探测边缘一样。

颞叶的中央和后部的面部斑块会前馈到下一层,即颞叶前叶,这是一个空间不变的面部识别器。在这里,许多细胞都可以识别出一张脸,并且或多或少并不关心这张脸的位置及其精确的像素排列。其详细机制还属未知,但很可能类似有同样功能的大型计算机网络。无论脸在视野中位于何处,有些细胞总是可以识别脸部图像及其镜像。还有些细胞实现了真实的空间不变性,无论在视野中的任何位置都对脸部做出响应。镜像为何很重要尚不清楚。一个可能的解释是,镜像识别单元是迈向真实空间不变性的一个步骤(一个隐藏层)。

最后更为引人注目的是,有些细胞只对特定的人脸敏感。大脑中存在着的细胞集群(这些细胞以及它们之间的连接)似乎能让我们识别出日常生活中认识的所有人:我们的朋友、家人、同事。显然,空间不变的神经网络输出被输入到感知链条的更高处,形成更抽象的表征,并学会识别特定的个体。但是,我们只能推测这些细胞是如何集成到整个系统中的。[3]

总而言之,我们可以将颞叶的视觉处理想象成5个阶段。首先,大脑的神经网络学会识别五官之类的脸部部件。随后,大脑通过对面部、鼻子、眼睛等面部部件的计算得到一个脸的概念。接着,如果一张脸位于其视野的特定位置,则神经元会根据它的面部特征发放。然后,某些细胞实现部分位置不变性。最后,最前部的面部斑块的神经元几乎达到完全的位置不变。在人脑的面部斑块的附近脑区(颞叶前部的靶标之一)仅对一小部分人的面部做出反应。因此,面部斑块的主要目的似乎是逐步建立起对人或事物的识别特征,确立它们各自的身份。

你可能会注意到,我描述的这张假想的神经网络的细节有些模糊。那是因为我们离真正理解高级视觉处理的机制还很远,后者是基于特定的神经元及其突触的。确实,已经有很多方法可以证明大脑无法使用计算机使用的简单的类似感知器的神经网络来识别人脸并驾驶汽车。预告一下以后的讨论,计算机大多数使用有监督学习,而大脑必须使用某种形式的无监督学习。我想在这里强调神经网络的基本原理,而不是强调任何特定形式的神经网络。对象识别是通过多个神经集群来工作的,这些神经集群是由突触强度的逐步改变而形成的,正如赫布所表明的那样。

我们还得提醒自己,脸不是颞叶唯一要识别的东西。还有其他许多类型的视觉对象也有其对应的颞叶斑块,这些对象在视觉上或概念上都链接在一起。一个很好的示例是对工具图像[不是任何特定的工具,而是工具作为类别(锤子、锯子、钳子)]做出响应的细胞。我们才刚刚开始阐明颞叶的逻辑。

[1] 简单地说,感受野较大的视网膜中间神经元,即水平细胞和较大的无长突细胞会对视网膜较大区域的亮度进行采样。随后,它们根据这个亮度从光感受器向神经节细胞传输的信号中减掉若干。其他机制也存在,有些时程较长,有些较快,有些在视网膜外层发挥作用,有些在内层发挥作用。例如,在视网膜内层,无长突细胞会直接调整神经节细胞的响应。

[2] 这里提到的基本机制由休伯尔和维泽尔提出。通过同时记录LGN和V1的细胞,研究者们验证了这个机制。Reid,R.C.,& Alonso,J.M.(1995).Specificity of monosynaptic connections from thalamus to visual cortex.Nature,378, 281–284.

[3] 这里的著名例子是珍妮弗·安妮斯顿细胞。当外科医生记录一个脑部手术患者的神经元时,他们发现有一个神经元只有在患者看到演员珍妮弗·安妮斯顿时才会发放,看到其他影星时则不会。当然啦,安妮斯顿并不是这个患者唯一认识的演员。只是医生恰好撞上了一个只识别安妮斯顿的神经元。事实上,我们也不知道如何理解这个发现。也许这个细胞只是一个更大的神经网络的一部分。但是我们还不知道这个更大的网络是什么。