作者归档：xczhang

解读计算机视觉论文投稿到接收，不可不知的关键环节

转自北京智源人工智能研究院

2020年3月17日，在超千人同时在线的“智源论坛·论文写作专题报告会”上，三位智源青年科学家分别进行了精彩的在线分享，题目分别为：

他们通过丰富的实战示例，分别从论文写作的润笔和修改技巧、论文写作的常用步骤与方法、论文投稿和审核中的关键注意事项等多种角度，详细解析了如何写好一篇优秀的国际学术论文，收到了直播间观众的热烈反响。我们将他们的演讲整理成文字，陆续发布。

今天，我们将介绍智源青年科学家、北大计算机系数字媒体研究所研究员施柏鑫的报告《计算机视觉会议论文从投稿到接收》。

本次报告，施柏鑫从作者、审稿人、领域主席、期刊编委等视角，围绕计算机视觉领域，为我们讲述了该领域顶级会议论文从写文章、投文章（包括Rebuttal）、审文章、扩期刊各环节的经验心得和关键注意事项。可以说，这个报告提供了覆盖整个论文写作闭环的精彩干货，相信会令大家开卷有益。

继续阅读 →

谷歌AI大神力作登《Science》，把进化论引入人工智能：无需人工输入、自动进化的AI程序

转自头部科技

近日，谷歌计算机科学家Quoc Le和他的同事们开发了一个名为AutoML-Zero的程序，这款程序引用了达尔文进化论“适者生存”的概念，可以在没有人工输入的情况下实现AI程序一代与下一代之间的自我改善和进化。

零人工输入的自动化机器学习程序：AutoML-Zero

相关论文发表在预印平台arXiv中，论文标题为《AutoML-Zero：从零开始发展机器学习算法》

AutoML-Zero在短短几天内就复制了数十年的AI研究成果，有设计人员认为，有一天它可以超越现有的研究，发现人工智能的新方法。

建立AI算法往往需要较长的时间。以神经网络（一种用于翻译语言和驾驶汽车的常见机器学习类型）为例，为了使更小的神经元子电路执行特定的任务——例如识别路标，研究人员往往需要花费数月的时间研究如何将它们连接起来以便无缝地协同工作。

近年来，科学家们通过自动化一些步骤加快了这一进程，但这些程序仍然依赖于将人类设计的现成电路缝合在一起，这意味着程序输出仍然受到工程师的想象力和现有偏见的限制。

因此， Quoc Le和他的同事们开发了AutoML-Zero程序，这个程序可以仅仅使用高中生知道的基本数学概念开发出无需人工输入的AI程序。他说：“我们的最终目标是开发出连研究人员都找不到的新型机器学习概念。”

AutoML-Zero程序使用宽松的演化近似（a loose approximation of evolution）来发现算法。它首先通过随机组合数学运算来创建100个候选算法。然后在一个简单的任务上测试他们，比如一个图像识别问题，在这个问题上，它必须决定一幅画上的图像是猫还是卡车。

在每个循环中，程序将算法的性能与手工设计的算法进行比较。通过随机替换、编辑或删除一些代码来“突变”顶级算法的副本，从而创建最佳算法的细微变化。这些“新生儿”被添加到种群中，而较老的项目被淘汰，这个循环重复进行。

继续阅读 →

计算所山世光：AI方法论需升级，疫后 AI 将如何发展？

转自 AI科技评论

曾被誉为人工智能的三驾马车——算法、算力、数据，到了需要反思的时刻。特别是深度学习在学术前沿的后续发展乏力，恐难支撑AI能力继续升级。

步入新的十年后，如今 AI 可能已经到了一个拐点时刻。

那么接下来，AI 技术将如何发展、应用？随着国内疫情的结束，这逐渐成为领域内众多研究者和从业者亟需回答的一个关键问题。

4 月 9 日，中国科协学会学术部、中国科学报联合腾讯科协、腾讯发展研究办公室举办了一场非常及时的线上论坛活动，主题为“人工智能：科技与经济融合新引擎”。众多学者专家纷纷回答了疫后人工智能科技与经济融合发展的诸多问题。

AI 科技评论本着对人工智能技术重点关注，选取中科院计算所研究员、中科视拓创始人山世光的报告内容做以整理，分享给大家。

山世光研究员的报告分为两大部分，先是从研究的角度，他认为AI方法论将从「数据驱动」转向「知识+数据联合驱动」；在后一部分，他从行业发展的层面提出了五大观点和建议。这些内容具有深刻的洞见性。

1 从学术前沿视角来看，
深度学习已成强弩之末

在过去十年里，人工智能的研究从过去依靠规则、知识来设计人工智能算法这样一套方法论，逐渐过渡到了以数据为主要驱动力的方法论。

在这个方法论的指导下，靠着“三驾马车”——算法、大数据、强算力，支撑起了现在的AI能力。算法上主要以深度学习为主，数据则强调要足够大（且是有监督的标注数据），由于深度学习动辄需要通过训练设定上亿的参数也导致了非常依赖强大算力的支撑。

于是，只要满足下面两个条件的AI任务，都能够得到好的解决：

1）专用AI任务(而非通用AI)。例如医疗影像中，看肺炎的AI就只能看肺炎，不能看肝炎；看CT的AI就只能看CT，不能看核磁。

2）“好”数据肥沃(通过商业模式大量获取数据)。所谓好数据，一方面要有较大的规模，另一方面则是要有好的标注。

但这样的AI，离我们所期望的相距甚远。

微软亚洲研究院院长洪小文博士曾提出如下的AI能力金字塔（黄色字体是山世光增加内容）：

按照这种金字塔层次，目前的AI技术仍还停留在第二层的「感知和简单推理」上面，也即相当于非人类灵长类动物的层次。

如何更进一步，向上做到认知、情感、创造，甚至智慧呢？

山世光认为我们至少需要做以下几种能力的提升——

继续阅读 →

ICLR 2020 | Bengio 一作论文：因果机制元学习与模型泛化如何产生关联？

转自机器之心

Yoshua Bengio 等人基于学习器适应新分布的速度提出一种元学习因果结构，这些新分布由干预、智能体动作以及其它非稳态（non-stationarity）导致的稀疏分布变化引起。这项研究证明，在此假设下，正确的因果结构选择会使学习器更快地适应修改后的分布，因为在所学知识经过适当模块化后，分布变化将集中在一或多个机制中。这导致稀疏的预期梯度，以及在适应此类变化时需要重新学习的有效自由度的数量较少。因而，该研究将适应修改后分布的速度作为元学习的目标，表明这可用于决定两个观测变量之间的因果关系。

分布变化无需对应标准干预，学习器不具备关于干预的直接知识。该研究证明，因果结构可通过连续变量进行参数化，并以端到端的形式学得。研究者还探索了如何将这些想法用于学习编码器来映射低级观测变量与导致更快速分布外适应的未观测因果变量，进而学得一个表示空间，使之满足独立机制以及动作和非稳态导致的机制内微小稀疏变化的假设。

论文链接：https://arxiv.org/pdf/1901.10912.pdf

继续阅读 →

深度学习框架的灵魂

转自知乎袁进辉

2020年是中国深度学习框架年，清华Jittor,旷视MegEngine,华为Mindspore已经接连在3月份开源，一流科技的Oneflow也在为开源做着紧锣密鼓的准备。国内深度学习框架发展终于迎来了百花齐放的一天，下一步有没有可能发展出具有世界影响力的深度学习框架呢？无疑，道阻且长，影响因素错综复杂。我前几天写过一篇题为《如何欣赏一个深度学习框架？》的文章，在文中表达了这样的观点：在百家争鸣的氛围下，技术创新性是框架是否能脱颖而出的决定因素。在那篇文章中，我指出了分析框架品质的三个方面：创新性，工程质量，各个模块的技术实现。后来又思考了一下，觉得对框架的分析可以更进一步，我们就在这里讨论讨论一个深度学习框架的灵魂。

任何一件产品都有灵魂，从设计思想到每一处细节，都是这个产品灵魂的表现。一幅画，一本书，一部电影，都在向外传递着坐着的个性主张，同样是暴力美学电影，北野武，杜琪峰，昆汀达伦提诺执导的作品也各不相同。一件电子产品，体现了打造者对产品的想象和热情（如果有的话），这些个性特征也决定了产品的成败。苹果的产品，鲜明地体现了以乔布斯为代表的设计及研发团队的追求；同样作为智能手机，功能类似，但设计不同，即使是抄袭苹果的设计，在制造上仍可能无法像苹果一样做到极致，一部手机有成千上万的细节，苹果可以做到倾尽所有资源把全部细节做好。手机上的每一个APP，也有自己的灵魂，没有人不喜欢微信，微信体现了张小龙产品设计的克制和内敛，绝不乱打扰用户，用完即走，用户感觉到被尊重，没有冷酷和傲慢。

软件系统也有灵魂。软件的灵魂来自背后研发团队对需求的理解，团队的组织结构，团队的审美和价值观。我觉得，Frederick Brooks的《人月神话》一书，对复杂软件系统核心理念的讨论非常好，尽管作者没有使用“灵魂”这个词。Brooks非常强调“概念一致性”问题，我觉得那个“一致的概念”就接近软件的灵魂。

继续阅读 →

院士谈丨CAAI名誉理事长李德毅：通用人工智能十问

转自中国人工智能学会

— 通识或共识 —

智能是学习的能力，以及解释、解决问题的能力；人工智能是脱离生命体的智能，是人类智能的体外延伸；通用人工智能面向不同的情境，能够解释、解决普遍性的智力问题，通过不断学习，积累本领，进化成长。

在此通识的基础上，我们提出如下质疑：

一问：

意识、情感、智慧和智能，它们是包含关系还是关联关系？是智能里面含有意识和情感，还是意识里面含有智能？是智慧里面有智能，还是智能里面有智慧？大凡意识、情感，都是内省的、自知的、排他的，怎么可以用他人的、人工的来替代呢？所以非生命体不可能有意识？

二问：

如何理解通用智能？我们应该不应该把通用智能理解为“全知全能”或者单项超强智能？尽管今天的计算机已经可以解决很多复杂的、专门的智力问题（如围棋智能），我们仍常常觉得它们缺乏人类思维的某些本质特征。这里的差别主要不是在算法、算力、数据量方面，不是在机器的速度和容量方面，而是在人工智能的一般性、通用性、普遍性、灵活性、缺省性、容错性、可习得性、不确定性、适应性、常识性、开放性、创造性、自主性等方面。生活中也不乏有这样的情况：个别有认知障碍的天才展示出数学奇才，但缺乏的恰恰是通用智能。遗憾的是发展60多年的人工智能没有能够更靠近人的原始的智能。

三问：

目前所有的人工智能的成就都是在计算机上表现出来的，是基于冯架构的计算机智能或者计算智能，人工智能是计算机的一个应用而已。而人脑不是冯诺依曼架构的，存在不存在宏观上更类似脑组织的非冯诺依曼架构呢？例如，对人的智能而言，记忆力是真正的智力，超强记忆力就是超强智能，记忆比计算重要，记忆是对计算对监督和约束，记忆的提取要比复杂的推理快得多，非冯架构如何在结构上体现人脑的不同记忆区和记忆力呢？如何体现情境和知识的双驱动？

四问：

非生命体不会有七情六欲，机器人是非生命体，还会有学习的原动力吗？如果没有学习的原动力，没有接受教育的自发性，还会有学习的目标吗？目标从哪儿产生？机器人能否自己提出问题？

五问：

人的注意力选择源于记忆，源于记忆的偏好依附性，偏好如何产生的？偏好依附是否只能与交互认知的频度和时间的远近相关？人的偏好依附不是这样的，人的恐惧性以及满足感会让一些发生频度很低、或者很久远的事记忆特别深刻。

六问：

自然语言是人类思维活动的载体，如果自然语言是第一语言，数学语言是第二语言，计算机语言是第三语言，后一个比前一个常常更严格，后一个比前一个常常更狭义，根据哥德尔不完全定理，数学自身难以完全自洽。数学的形式化要借助于自然语言，计算机语言的形式化要借助于数学语言。因此，人工智能怎么可以反过来要用数学语言或者计算机语言去形式化人类的自然语言呢？

七问：

人脑可以比作一个小宇宙吗？其中的智能是多情境、多公理兼容并包的，进化发展的，在不同时刻、不同情境有不同应对，不完全收敛，不完全自恰，不整体统一，不存在非公理的统一体系的数学推理，当然也不必一定要脑裂，如同一个人在微信不同朋友圈里表现出的不同智能。因此，如何理解“智能的统一体系”追求？

八问：

一个机器或者系统是否有智能，不仅在于某一个时刻它能解决什么实际的智力问题，而在于它有没有学习的能力？智能，即提供的问题解决方案，是否可依赖于有限的认知资源？是否需要进一步交互认知？是否可以有选项？是否可以进化和成长？这才是最重要的。

九问：

在一个非冯诺依曼架构的机器人脑中，组成记忆、交互和计算的基本元件最少有哪几种？各元件中的信息的产生机制与存在形式是什么样的？他们之间的信息传递机制是什么样的？

十问：

通用智能后天的习得靠教育，智能植根于教育，文明是智能的生态。设有通用架构的机器婴儿10台，可视为带有基因的硬件加基础软件，让10位母亲分别在各自的情境去教育10名机器婴儿成长，仅仅通过语音交互，1个月后这名机器婴儿脑的瞬时记忆、工作记忆和长期记忆的三个记忆区中留下的都会有些什么？以后，机器婴儿的基础软件（含记忆、交互、计算软件）要不要不断扩充？硬件要不要不断扩充？机器婴儿脑有没有形成自己软件的能力？

用物理学突破深度学习理论瓶颈？ Google-斯坦福发布《深度学习统计力学》综述论文,30页pdf阐述深度学习成功机制

转自专知

地址：
https://www.annualreviews.org/doi/abs/10.1146/annurev-conmatphys-031119-050745

最近，深度神经网络在机器学习领域取得了惊人的成功，这对它们成功背后的理论原理提出了深刻的疑问。例如，这样的深度网络可以计算什么?我们如何训练它们?信息是如何通过它们传播的?为什么它们可以泛化?我们如何教它们想象?我们回顾了最近的工作，其中物理分析方法植根于统计力学已经开始提供这些问题的概念上的见解。这些见解产生了深度学习与各种物理和数学主题之间的联系，包括随机景观、自旋玻璃、干扰、动态相变、混沌、黎曼几何、随机矩阵理论、自由概率和非平衡统计力学。事实上，统计力学和机器学习领域长期以来一直享有强耦合交叉作用的丰富历史，而统计力学和深度学习交叉领域的最新进展表明，这些交叉作用只会进一步深化。

概述

具有多层隐含层(1)的深度神经网络在许多领域都取得了显著的成功，包括机器视觉(2)、语音识别(3)、自然语言处理(4)、强化学习(5)，甚至在神经科学(6、7)、心理学(8、9)和教育(10)中对动物和人类自身的建模。然而，用于获得成功的深度神经网络的方法仍然是一门高度熟练的艺术，充满了许多启发，而不是一门精确的科学。这为理论科学提出了令人兴奋的挑战和机会，以创建一个成熟的深度神经网络理论，该理论强大到足以指导在深度学习中广泛的工程设计选择。虽然我们目前离这样成熟的理论还有很长的距离，但是最近在统计力学和深度学习交叉领域出现的一批研究已经开始为深度网络的学习和计算提供理论上的见解，有时还会提出新的和改进的方法来推动这些理论的深入学习。

在这里，我们回顾了建立在统计力学和机器学习相互作用的悠久而丰富的历史基础上的这一工作体系(11-15)。有趣的是，正如我们下面所讨论的，这些工作在统计力学和深度学习之间建立了许多新的桥梁。在本介绍的其余部分中，我们将为机器学习的两个主要分支提供框架。第一个是监督学习，它涉及到从例子中学习输入-输出映射的过程。第二种是无监督学习，它涉及到学习和挖掘数据中隐藏的结构模式的过程。有了这两个框架，我们将在1.3节中介绍本综述中讨论的几个深度学习的基本理论问题，以及它们与与统计力学相关的各种主题的联系。

继续阅读 →

图神经网络时代的深度聚类

转自 PaperWeekly

聚类作为经典的无监督学习算法在数据挖掘/机器学习的发展历史中留下了不可磨灭的印记。其中，经典的聚类算法 K-Means 也被选为数据挖掘十大经典算法。随着深度学习的兴起，一些工作尝试将深度学习技术（如 Autoencoder ）引入到传统聚类算法中，也取得了不错的效果。

近些年，图神经网络已经成为深度学习领域最热门的方向之一，也在推荐/自然语言处理/计算机视觉等很多领域得到了广泛的应用。那么，能不能利用图神经网络强大的结构捕获能力来提升聚类算法的效果呢？本文梳理总结了图神经网络赋能的深度聚类算法，供大家参考。

1.1 论文动机

本文认为之前的深度聚类算法都是 two-step 的：首先学习数据的特征表示 embedding，然后基于特征表示进行数据聚类。这样所学习的数据 embedding 并不是任务导向的。那么，如果能够在学习 embedding 的过程中，针对聚类任务做一些针对性的设计，那么学习到的 embedding 自然可以实现更好的聚类。

针对上述问题，本文提出了一种聚类导向的深度算法 Deep Attentional Embedded Graph Clustering (DAEGC)。DAEGC 一边通过图神经网络来学习节点表示，一边通过一种自训练的图聚类增强同一簇节点之间的内聚性。

下图清晰的展示 two-step 和本文所提出的 DAEGC 的差异。

1.2 模型介绍

下图展示了 DAEGC 的模型框架：

可以看出，整个 DAEGC 主要包含两大模块：带有注意力机制的图自编码器+自训练聚类。

1.3 带有注意力机制的图自编码器

这里就是经典的 GAE 架构：通过对邻居的聚合来学习节点表示，然后利用节点对的内积来重构原始网络结构。比较有特色的部分就是结合注意力机制来学习邻居的权重，这样可以更好的学习节点表示。

下式展示了融合注意力机制的 GAE 是如何聚合邻居信息来更新节点表示的。本质上就是对邻居的加权平均。

继续阅读 →

史上最全《知识图谱》2020综述论文，18位作者, 130页pdf

转自新智元

地址： https://arxiv.org/abs/2003.02320

在本文中，我们对知识图谱进行了全面的介绍，在需要开发多样化、动态、大规模数据收集的场景中，知识图谱最近引起了工业界和学术界的极大关注。在大致介绍之后，我们对用于知识图谱的各种基于图的数据模型和查询语言进行了归纳和对比。我们将讨论schema, identity, 和 context 在知识图谱中的作用。我们解释如何使用演绎和归纳技术的组合来表示和提取知识。我们总结了知识图谱的创建、丰富、质量评估、细化和发布的方法。我们将概述著名的开放知识图谱和企业知识图谱及其应用，以及它们如何使用上述技术。最后，我们总结了未来高层次的知识图谱研究方向。

知识图谱的优势

尽管“知识图谱”一词至少从1972年就开始出现在文献中了[440]，但它的现代形式起源于2012年发布的谷歌知识图谱[459]，随后Airbnb[83]、亚马逊[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微软[457]、优步[205]等公司相继发布了开发知识图谱的公告。事实证明，学术界难以忽视这一概念的日益普及: 越来越多的科学文献发表关于知识图谱的主题，其中包括书籍(如[400])，以及概述定义(如[136])的论文，新技术(如[298,399,521])，以及对知识图谱具体方面的调查(如[375,519])。

所有这些发展的核心思想是使用图形来表示数据，通常通过某种方式显式地表示知识来增强这种思想[365]。结果最常用于涉及大规模集成、管理和从不同数据源提取价值的应用场景[365]。在这种情况下，与关系模型或NoSQL替代方案相比，使用基于图的知识抽象有很多好处。图为各种领域提供了简洁而直观的抽象，其中边捕获了社会数据、生物交互、书目引用和合作作者、交通网络等[15]中固有实体之间的(潜在的循环)关系。图允许维护者推迟模式的定义，允许数据(及其范围)以比关系设置中通常可能的更灵活的方式发展，特别是对于获取不完整的知识[2]。与(其他)NoSQL模型不同，专门的图形查询语言不仅支持标准的关系运算符(连接、联合、投影等)，而且还支持递归查找通过任意长度路径[14]连接的实体的导航运算符。标准的知识表示形式主义——如本体论[66,228,344]和规则[242,270]——可以用来定义和推理用于标记和描述图中的节点和边的术语的语义。可伸缩的图形分析框架[314,478,529]可用于计算中心性、集群、摘要等，以获得对所描述领域的洞察。各种表示形式也被开发出来，支持直接在图上应用机器学习技术[519,527]。

总之，构建和使用知识图谱的决策为集成和从不同数据源提取价值提供了一系列技术。但是，我们还没有看到一个通用的统一总结，它描述了如何使用知识图谱，使用了哪些技术，以及它们如何与现有的数据管理主题相关。

教程目标：全面介绍知识图谱

本教程的目标是全面介绍知识图谱: 描述它们的基本数据模型以及如何查询它们;讨论与schema, identity, 和 context相关的表征;讨论演绎和归纳的方式使知识明确;介绍可用于创建和充实图形结构数据的各种技术;描述如何识别知识图谱的质量以及如何改进知识图谱;讨论发布知识图谱的标准和最佳实践;并提供在实践中发现的现有知识图谱的概述。我们的目标受众包括对知识图谱不熟悉的研究人员和实践者。因此，我们并不假设读者对知识图谱有特定的专业知识。

知识图。“知识图谱”的定义仍然存在争议[36,53,136]，其中出现了一些(有时相互冲突的)定义，从具体的技术建议到更具包容性的一般性建议;我们在附录a中讨论了这些先前的定义。在这里，我们采用了一个包容性的定义，其中我们将知识图谱视为一个数据图，目的是积累和传递真实世界的知识，其节点表示感兴趣的实体，其边缘表示这些实体之间的关系。数据图(又称数据图)符合一个基于图的数据模型，它可以是一个有向边标记的图，一个属性图等(我们在第二节中讨论具体的替代方案)。这些知识可以从外部资源中积累，也可以从知识图谱本身中提取。知识可以由简单的语句组成，如“圣地亚哥是智利的首都”，也可以由量化的语句组成，如“所有的首都都是城市”。简单的语句可以作为数据图的边来积累。如果知识图谱打算积累量化的语句，那么就需要一种更有表现力的方式来表示知识——例如本体或规则。演绎的方法可以用来继承和积累进一步的知识(例如，“圣地亚哥是一个城市”)。基于简单或量化语句的额外知识也可以通过归纳方法从知识图谱中提取和积累。

知识图谱通常来自多个来源，因此，在结构和粒度方面可能非常多样化。解决这种多样性, 表示模式, 身份, 和上下文常常起着关键的作用,在一个模式定义了一个高层结构知识图谱,身份表示图中哪些节点(或外部源)引用同一个真实的实体,而上下文可能表明一个特定的设置一些单位的知识是真实的。如前所述，知识图谱需要有效的提取、充实、质量评估和细化方法才能随着时间的推移而增长和改进。

在实践中知识图谱的目标是作为组织或社区内不断发展的共享知识基础[365]。在实践中，我们区分了两种类型的知识图谱:开放知识图谱和企业知识图谱。开放知识图谱在网上发布，使其内容对公众有好处。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵盖了许多领域，它们要么是从Wikipedia[232,291]中提取出来的，要么是由志愿者社区[51,515]建立的。开放知识图谱也在特定领域内发表过，如媒体[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科学[79]等。企业知识图谱通常是公司内部的，并应用于商业用例[365]。使用企业知识图谱的著名行业包括网络搜索(如Bing[457]、谷歌[459])、商业(如Airbnb[83]、亚马逊[127、280]、eBay[392]、Uber[205])、社交网络(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利银行[32][326]、彭博[326]、Capital One[65]、富国银行[355])等。应用包括搜索[457,459]，推荐[83,205,214,365]，个人代理[392]，广告[214]，商业分析[214]，风险评估[107,495]，自动化[223]，以及更多。我们将在第10节中提供更多关于在实践中使用知识图谱的细节。

课程其余部分结构

第2节概述了图形数据模型和可用于查询它们的语言。
第3节描述了知识图谱中模式、标识和上下文的表示形式。
第四节介绍了演绎式的形式主义，通过这种形式主义，知识可以被描述和推导出来。
第5节描述了可以提取额外知识的归纳技术。
第6节讨论了如何从外部资源中创建和丰富知识图谱。
第7节列举了可用于评估知识图谱的质量维度。
第8节讨论知识图谱细化的各种技术。
第9节讨论发布知识图谱的原则和协议。
第10节介绍了一些著名的知识图谱及其应用。
第11节总结了知识图谱的研究概况和未来的研究方向。
附录A提供了知识图谱的历史背景和以前的定义。
附录B列举了将从论文正文中引用的正式定义。

直接识别人脸？MIT、耶鲁新研究：模型首先得做到反向「想象」脸

转自机器之心

只要我们一睁开眼，就能立刻看到周围的环境，这个辨认过程非常快，而且即使身处一个杂乱的环境，我们的眼睛也能辨别出每一个细节。视觉系统不仅可以检测和识别物体，而且可以推断出深层次的场景结构。

为什么大脑能够迅速地形成细节如此丰富的图像？这一直是个未解之谜。
一直以来，脑科学家们都在尝试使用计算机视觉模型来复制大脑的这个过程，但目前最先进的模型只能完成更简单的任务，比如从杂乱的背景中识别出面部或者物体。
此前，逆生成模型或者说「综合分析（analysis-by-synthesis）」提出了解决方案，但是其效果对在线感知来说还是太慢了，并且它们对神经回路的映射也暂不清楚。
近日，MIT 和耶鲁大学的研究人员开发了一种计算机模型，可以像人类一样从图像中迅速生成详细的场景描述，这一成果已经以论文的形式在《Science Advance》上发表，为我们探索大脑这一强大机制的工作原理提供了参考。

论文地址：https://advances.sciencemag.org/content/6/10/eaax5979

论文的主要作者是耶鲁大学心理学助理教授 Ilker Yildirim，其他参与者还包括洛克菲勒大学的两位神经科学和行为学方面的教授 Tenenbaum、Winrich Freiwald 等。

从「逆向图（Inverse graphics）」说起

几十年来，针对大脑视觉系统的研究已经详细探索了视网膜上的光输入如何转变成连贯的场景。这种理解帮助人工智能研究者开发出可以复制该系统各个方面的计算机模型，如人脸或其他目标的识别模型。
「视觉是我们理解最深刻的大脑功能，」Tenenbaum 表示，「计算机视觉是目前最成功的 AI 领域之一。对机器识别图像、人脸及其他目标，我们已经习以为常。」然而，即使是这些复杂的 AI 系统也无法与人类的视觉系统相提并论。
「我们的大脑不只是检测到某处有一个目标，或者识别出这个目标并给它打上标签，」Yildirim 表示，「我们还会看到所有这些物体的形状、几何、表面和纹理。我们能看到的世界非常丰富。」
一个多世纪之前，生理、物理学家、哲学家赫尔曼·冯·亥姆霍兹（Hermann von Helmholtz）提出了一个理论，认为大脑是通过逆转图像形成的过程来创造这些丰富的表征。他假设这个视觉系统包含一个图像生成器，比如，该生成器可以生成我们在梦中看到的人脸。逆向运行该生成器可以让大脑从图像开始反向工作，推断出产生该图像的是哪种人脸或物体。
然而，问题在于：大脑为什么能够如此之快地执行这一名为「逆向图」的过程？
计算机科学家曾努力尝试创建能够完成这一壮举的算法，但即使是他们创造出的最好的系统也需要多轮迭代处理，所以创造一个眼前所见之景的详细视觉表征要比大脑多花很多时间（大脑只需要 100 到 200 毫秒）。神经科学家认为，大脑中的感知之所以进行得如此之快，是因为它是在通过几个层次分明的神经处理层的前馈传递来实现的。
MIT 领导的研究小组建立了一种名为「EIG（efficient inverse graphics）」的特殊深度神经网络模型，以展示神经层次结构如何快速推断出场景的潜在特征（在这篇论文中指人脸）。与计算机视觉系统中用到的标准深度神经网络（用带标签的数据训练出的神经系统）相比，EIG 是从一个模型中训练出来的，这个模型反映了大脑针对所见人脸生成的内部表征。

EIG 模型架构

EIG 模型学习逆转人脸生成计算机图形程序所执行的步骤。这些图形程序从单个人脸的 3D 表征开始，将其转换为从特定视角看到的 2D 图像。这些图像可以被放到任意背景图上。研究人员推断，在你做梦或在脑海中想象某个人的人脸时，大脑视觉系统可能的运行机制可能与上述过程类似。
研究人员训练该模型来反向执行上述步骤，即从 2D 图像开始，然后添加纹理、曲率、光线来创建一个「2.5D」的表征。这些 2.5D 的图像指定了特定视角人脸的形状和颜色。接下来将其转换为非指定视角的 3D 表征。
「该模型提供了大脑对人脸处理的系统级描述，使其能够看到图像，并通过 2.5D 图像这个重要的中间步骤，最终生成包含形状和纹理表征的 3D 目标，」Yildirim 说道。

EIG 的核心是基于 DCNN 的推理网络，但研究者首先描述了概率生成模型组件，这套组件确定了训练目标并且为推理网络生成训练数据。生成模型采用潜在变量层次结构的形式，结构之间的因果关系表示了在采样面部图像中概率图像程序的多个阶段。

模型性能

研究人员发现，该模型与其他研究猕猴大脑中所获得的数据一致。2010 年发表的一篇论文中，来自加州理工学院的 Freiwald 和 Doris Tsao 记录了这些脑区域中神经元的活动，并从七个不同的角度分析了它们如何感应 25 张不同面孔的。该研究揭示了高级人脸处理的三个阶段，而 MIT 的小组现在假设这些阶段对应于其逆向图形模型的三个阶段：一个依赖于 2.5D 视角的阶段；一个 2.5D 过渡到 3D 的阶段；以及 3D 的、视角无关的面部表示阶段。
「我们的结果表明，大脑三个层次的定量和定性反应特性似乎与我们所构建网络的前三个层次非常相吻合，」Tenenbaum 说道。
研究者还对比人和模型从不同视角识别人脸的能力差异。为了增加难度，研究者选择改变人脸纹理或形状（每次只改变其中一个）。结果表明，与当前最佳人脸识别模型相比，新模型与人类的表现要接近得多。进一步的研究表明，这个新模型的机理可能更加接近真实的人类视觉系统。
「这项工作非常激动人心，因为它将中间表征的可解释阶段引入到了人脸识别的前馈神经网络模型中，」哥伦比亚大学心理学和神经科学教授 Nikolaus Kriegeskorte 表示。「他们的方法将『视觉系统反转图像生成模型』的经典想法与当下的深度前馈网络结合在一起。有趣的是，这个模型能更好地解释神经表征和行为反应。」
研究者打算在其他图像上继续测试该模型，包括非人脸目标，以此来探索逆向图是否也可以解释大脑如何感知其他类型的场景。此外，他们还相信，将这种方法纳入计算机视觉可以打造出性能更好的 AI 系统。
「如果我们找到证据证明这些模型能够反映大脑的运行机制，那么这项工作会让计算机视觉的研究者更加重视这种逆向图感知方法，并花费更多的经历进行研究。」Tenenbaum 表示。在这个领域，「大脑仍是是金标准。」