直接识别人脸?MIT、耶鲁新研究:模型首先得做到反向「想象」脸

转自 机器之心

只要我们一睁开眼,就能立刻看到周围的环境,这个辨认过程非常快,而且即使身处一个杂乱的环境,我们的眼睛也能辨别出每一个细节。视觉系统不仅可以检测和识别物体,而且可以推断出深层次的场景结构。

为什么大脑能够迅速地形成细节如此丰富的图像?这一直是个未解之谜。
一直以来,脑科学家们都在尝试使用计算机视觉模型来复制大脑的这个过程,但目前最先进的模型只能完成更简单的任务,比如从杂乱的背景中识别出面部或者物体。
此前,逆生成模型或者说「综合分析(analysis-by-synthesis)」提出了解决方案,但是其效果对在线感知来说还是太慢了,并且它们对神经回路的映射也暂不清楚。
近日,MIT 和耶鲁大学的研究人员开发了一种计算机模型,可以像人类一样从图像中迅速生成详细的场景描述,这一成果已经以论文的形式在《Science Advance》上发表,为我们探索大脑这一强大机制的工作原理提供了参考。

论文地址:https://advances.sciencemag.org/content/6/10/eaax5979

论文的主要作者是耶鲁大学心理学助理教授 Ilker Yildirim,其他参与者还包括洛克菲勒大学的两位神经科学和行为学方面的教授 Tenenbaum、Winrich Freiwald 等。

从「逆向图(Inverse graphics)」说起

几十年来,针对大脑视觉系统的研究已经详细探索了视网膜上的光输入如何转变成连贯的场景。这种理解帮助人工智能研究者开发出可以复制该系统各个方面的计算机模型,如人脸或其他目标的识别模型。
「视觉是我们理解最深刻的大脑功能,」Tenenbaum 表示,「计算机视觉是目前最成功的 AI 领域之一。对机器识别图像、人脸及其他目标,我们已经习以为常。」然而,即使是这些复杂的 AI 系统也无法与人类的视觉系统相提并论。
「我们的大脑不只是检测到某处有一个目标,或者识别出这个目标并给它打上标签,」Yildirim 表示,「我们还会看到所有这些物体的形状、几何、表面和纹理。我们能看到的世界非常丰富。」
一个多世纪之前,生理、物理学家、哲学家赫尔曼·冯·亥姆霍兹(Hermann von Helmholtz)提出了一个理论,认为大脑是通过逆转图像形成的 过程来创造这些丰富的表征。他假设这个视觉系统包含一个图像生成器,比如,该生成器可以生成我们在梦中看到的人脸。逆向运行该生成器可以让大脑从图像开始反向工作,推断出产生该图像的是哪种人脸或物体。
然而,问题在于:大脑为什么能够如此之快地执行这一名为「逆向图」的过程?
计算机科学家曾努力尝试创建能够完成这一壮举的算法,但即使是他们创造出的最好的系统也需要多轮迭代处理,所以创造一个眼前所见之景的详细视觉表征要比大脑多花很多时间(大脑只需要 100 到 200 毫秒)。神经科学家认为,大脑中的感知之所以进行得如此之快,是因为它是在通过几个层次分明的神经处理层的前馈传递来实现的。
MIT 领导的研究小组建立了一种名为「EIG(efficient inverse graphics)」的特殊深度神经网络模型,以展示神经层次结构如何快速推断出场景的潜在特征(在这篇论文中指人脸)。与计算机视觉系统中用到的标准深度神经网络(用带标签的数据训练出的神经系统)相比,EIG 是从一个模型中训练出来的,这个模型反映了大脑针对所见人脸生成的内部表征。

EIG 模型架构

EIG 模型学习逆转人脸生成计算机图形程序所执行的步骤。这些图形程序从单个人脸的 3D 表征开始,将其转换为从特定视角看到的 2D 图像。这些图像可以被放到任意背景图上。研究人员推断,在你做梦或在脑海中想象某个人的人脸时,大脑视觉系统可能的运行机制可能与上述过程类似。
研究人员训练该模型来反向执行上述步骤,即从 2D 图像开始,然后添加纹理、曲率、光线来创建一个「2.5D」的表征。这些 2.5D 的图像指定了特定视角人脸的形状和颜色。接下来将其转换为非指定视角的 3D 表征。
「该模型提供了大脑对人脸处理的系统级描述,使其能够看到图像,并通过 2.5D 图像这个重要的中间步骤,最终生成包含形状和纹理表征的 3D 目标,」Yildirim 说道。

EIG 的核心是基于 DCNN 的推理网络,但研究者首先描述了概率生成模型组件,这套组件确定了训练目标并且为推理网络生成训练数据。生成模型采用潜在变量层次结构的形式,结构之间的因果关系表示了在采样面部图像中概率图像程序的多个阶段。

模型性能

研究人员发现,该模型与其他研究猕猴大脑中所获得的数据一致。2010 年发表的一篇论文中,来自加州理工学院的 Freiwald 和 Doris Tsao 记录了这些脑区域中神经元的活动,并从七个不同的角度分析了它们如何感应 25 张不同面孔的。该研究揭示了高级人脸处理的三个阶段,而 MIT 的小组现在假设这些阶段对应于其逆向图形模型的三个阶段:一个依赖于 2.5D 视角的阶段;一个 2.5D 过渡到 3D 的阶段;以及 3D 的、视角无关的面部表示阶段。
「我们的结果表明,大脑三个层次的定量和定性反应特性似乎与我们所构建网络的前三个层次非常相吻合,」Tenenbaum 说道。
研究者还对比人和模型从不同视角识别人脸的能力差异。为了增加难度,研究者选择改变人脸纹理或形状(每次只改变其中一个)。结果表明,与当前最佳人脸识别模型相比,新模型与人类的表现要接近得多。进一步的研究表明,这个新模型的机理可能更加接近真实的人类视觉系统。
「这项工作非常激动人心,因为它将中间表征的可解释阶段引入到了人脸识别的前馈神经网络模型中,」哥伦比亚大学心理学和神经科学教授 Nikolaus Kriegeskorte 表示。「他们的方法将『视觉系统反转图像生成模型』的经典想法与当下的深度前馈网络结合在一起。有趣的是,这个模型能更好地解释神经表征和行为反应。」
研究者打算在其他图像上继续测试该模型,包括非人脸目标,以此来探索逆向图是否也可以解释大脑如何感知其他类型的场景。此外,他们还相信,将这种方法纳入计算机视觉可以打造出性能更好的 AI 系统。
「如果我们找到证据证明这些模型能够反映大脑的运行机制,那么这项工作会让计算机视觉的研究者更加重视这种逆向图感知方法,并花费更多的经历进行研究。」Tenenbaum 表示。在这个领域,「大脑仍是是金标准。」